Cloudera全新数据科学工作台加快企业数据科学及机器学习

近日,机器学习和先进分析平台提供商Cloudera发布了测试版Cloudera数据科学工作台(Data Science Workbench),它是一款基于Cloudera企业版运行数据科学的自助工具。Cloudera数据科学工作台以去年所收购的数据科学初创企业Sense.io的技术为基础,使数据科学家可以使用其偏好的开源语言(包括R、Python和Scala),集成原生Apache Spark和Apache Hadoop的安全企业平台上的资源库,从而加快分析项目从探索到生产的进展速度。

Cloudera产品高级副总裁Charles Zedlewski表示:“Cloudera的工作重点在于改善数据科学和工程团队的用户体验,尤其是那些希望借助Spark进行数据处理和机器学习、并以此提高分析能力的用户。Sense.io及其团队的加入为我们带来了坚实的基础,使我们的数据科学工作台可以为客户提供大规模的自助式数据科学支持。”

对于数据科学家:

  • 支持将R、Python或Scala搭配个人优选的资源库和框架,通过网页浏览器直接使用
  • 可通过Spark和Impala直接访问安全的Hadoop集群上的数据
  • 与整个团队分享洞察,实现可复制、协作式的研究

对于IT专业人士:

  • 令数据科学团队可自由选择工作方式和时间
  • 与外部支持保持合规,实现Hadoop、尤其是Kerberos的充分安全性
  • 可在本地或云端运行,无论身在何处,均可轻松管理数据

随着开放数据科学跨越了广泛的Python和R生态系统,拓展到了Tensorflow、Microsoft Cognitive Toolkit、MXnet和BigDL等深度学习框架中,加之越来越多的数据被储存在Hadoop环境里,数据科学团队正在努力寻求利用这些工具的方法。Cloudera数据科学工作台提供了一个安全可靠的环境,可将最新的开源创新技术与Cloudera客户所信赖的统一平台相结合。

Zedlewski还表示:“鉴于数据科学家们的需求非常多样化,让他们进入共享环境往往给用户的IT团队带来巨大的挑战,特别是涉及开源工具的情况下,常造成重复工作、分析孤岛,以及降低安全性和管理能力等挑战。与此同时,数据科学家正在为其事业不断追求更大的数据集和更强大的计算平台。凭借我们的数据科学工作台,Cloudera可以帮助IT团队和数据科学家开展协作,让更多用户以灵活和合规的方式加入共享环境。”

原文发布时间为:2017年3月16日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-20 04:19:44

Cloudera全新数据科学工作台加快企业数据科学及机器学习的相关文章

引领大数据技术创新 加快大数据产业聚集

在近日公布的全市2015年度绩效目标考核中,高新区斩获开发区类一等奖,在各大开发区中排名第一. "这得益于近年来市委.市政府坚持围绕创新做文章,确立大数据这一主导产业,先人一步.棋高一筹,帮我们摆脱了'路径依赖',找准了发展方向.发展路子."高新区党工委副书记.管委会主任黄昌祥说,高新区将以此为新的起点,抓住大数据这个核心,引领大数据技术创新,加快大数据产业聚集,全力打造创新型中心城市示范区. 走好"先手棋"发展新业态 前不久,朗玛信息技术股份有限公司披露,从201

Veritas发布《数据囤积报告》 企业数据囤积规模庞大

11月17日,继<数据基因指数>项目之后,信息管理解决方案厂商 Veritas Technologies发布了另一项数据行为研究<数据囤积报告>.该研究旨在分析全球办公人员和 IT 决策者的数据存储习惯.报告结果显示,86%的中国IT决策者承认他们是数据和数字文件囤积者. 此次发布的<数据囤积报告>由Veritas Technologies 委托 Wakefield Research,共面向13个国家/地区超过10,000名办公人员和IT决策者展开调研,深入了解企业员工

光纤技术发展让企业数据中心更快传输数据

如今,每个人都希望更快地移动更多的数据,而这种需求正推动数据中心以太网速度的快速变化.超大规模的数据中心正在部署100千兆以太网(100GbE),期望在几年内将其升级到200GbE模块或400GbE模块,并且这些组织正在寻求更快的速度.在一般的企业数据中心,其网络建设速度进展缓慢.只有最近人们了解到10GbE模块成为企业网络连接的主流,但由于现有以太网的速度变化的步伐正在加快,所以10GbE模块网络速度在企业数据中心将持续应用5年或10年的时间这并不实际.相反,人们将看到数据中心网络正在快速的向

企业数据世界论坛结题篇:洞察行业趋势,倾听中国好声音

大数据文摘和御数坊合作,带给您"数据治理与管理领域"顶尖时讯.此活动由御数坊创始人刘晨,亲临美国企业数据世界EDW2015大会现场,为您报道大数据最不应却又最容易被忽略的内容,大数据文摘和御数坊同步为您传递... 御数坊简介 微信ID: DGWorkshop_CN 专注于数据治理与管理领域,致力于将全球最优质的数据治理与数据管理资源带给中国数据从业者,帮助中国各行各业企业客户夯实数据基础,提升数据质量,为数据资产价值的挖掘和创造保驾护航. 美国东部时间4月1日至4月3日上午,第19届企

探讨企业数据架构战略和数据湖的可能性和必要性

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配. 现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战.首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配.其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成.CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性. 然 而,大多数企业的数据架构,随着时间的推移,通常在缺

企业“数据压力锅”即将爆炸,CIO该如何防止爆锅?

随着全球"数字宇宙"的快速膨胀,企业存储在云上及数据中心的海量数据,正在形成"压力锅",并濒临"爆锅"状态.作为全球数据集成领域的领导者,Informatica的企业数据治理解决方案结合人工智能和机器学习CLAIRE引擎,可跨越多个业务系统访问.发现.清洗.集成和交付数据,为防止企业数据"爆锅"提供基础保障. 通过数据集成平台打造创新集成能力中心 T. RowePrice 是一家跨国投资管理公司,为改善客户服务.确保一致的 I

大数据时代,石化企业应该如何进行数据分析

一.大数据应用现状 1.数据量在不断增加,且数据结构不断复杂. 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去.这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量.于此同时,大量新数据源的出现则导致了非结构化.半结构化数据爆发式的增长. 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临- 2.中国企业的大数据现状 目前,中国企业500强的日数据生成量近一半都多于1GB,更有4

绿色数据中心已成为企业的必然选择

随着国家经济实力的增长,科学技术水平的提高,为适应全球资源环境压力增大的变化,绿色IT将会成为企业信息化的一种趋势,建设高效安全.低耗能的绿色数据中心成为企业的必然选择. 什么样的数据中心才是绿色的数据中心?如何才能把企业的数据中心建设成为绿色数据中心?这已经是摆在企业信息从业人员面前急需解决的课题. 1.数据中心的传统架构 关于数据中心目前为止还没有一个权威的定义,传统的数据中心一般是指以存储为中心的,通过网络和应用架构将主机系统.存储系统和软件系统整合起来提供统一的应用.安全和管理服务的数据

企业数据平台解决方案提供商发布最新Informatica 9

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   今天下午,企业数据平台解决方案提供商Informatica公司在北京召开了"颠覆传统,改变世界"Informatica 9 世界之旅中国站暨Informatica 9发布会.会上,Informatica正式发布了全球首个支持数据驱动型企业的数据平台Informatica 9.据悉,Informatica 9是目前业内唯一的全面.统一且开放式数