一季度大数据热门工具相关事件整理

文章讲的是一季度大数据热门工具相关事件整理,今年一季度,大数据开源圈内最热闹的一件事大概就是Hadoop迎来了它的十岁生日,收到了来自世界各地的各种祝福。Hadoop正式诞生于2006年1月28日,作为一个开源项目的生态系统,它从根本上改变了企业存储、处理和分析数据的方式:Hadoop可以在相同的数据上同时运行不同类型的分析工作。

  那一周,有媒体整理了Hadoop这十年来的数据变化:核心Hadoop中目前的代码行数为170万+、自2006年来对Hadoop的提交数量超过12000、自2006年来对核心Hadoop的代码贡献者有800+、Hadoop生态系统中的项目数量从2006年的2个到了25个。

  一个月后,雅虎在二月底发布了CaffeOnSpark人工智能的源代码,正式开源这一新的人工智能项目。Yahoo在科技方面的实力大概鲜有人知,其实,开源Hadoop就是Yahoo孵化的,Facebook、Twitter 以及其他不少公司都在用这个数据处理平台。

  CafffeOnSpark的根基是深度学习,之前在基于Hadoop集群的大规模分布式深度学习一文中,雅虎就曾介绍,其集Caffe和Spark之长开发CaffeOnSpark用于大规模分布式深度学习。雅虎认为,深度学习应该与现有的,支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序中。

  说到近期大数据领域的红人就不得不提到Spark,近年人气急剧攀升的Spark在今年更是动作频频,一月初刚刚发布了大版本1.6,三月又爆出2.0版本即将上线。

  此外,在二月底举行的Spark东部峰会上,硅谷最火的大数据初创公司Databricks也就内存内数据处理工具Spark的未来发展方向做了探讨,以及发布了一系列相关提示。Databricks公司由来自Berkeley和MIT的Spark原班团队创立,作为Spark项目背后的核心商业支持方,它在该项技术成果的演进道路上扮演着重要角色。

  Databricks公司CTO兼Spark创始人MateiZaharia谈到即将出炉的Spark2.0时提到,该版本将会有三大核心转变:利用Tungsten项目的下一发展阶段解决Java内存处理局限,从而加快Spark运行速度;将Spark改进为一套实时数据流系统;将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

  而在演讲中未被提及,但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与ApacheArrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。

  三月初,思科宣布计划未来三年在德国投资5亿美元,以及设立1.5亿美元的创新基金来帮助强化旗下的Spark服务,挑战企业通讯服务商Slack Technologies。思科一直在试图使得自有的协作工具Spark胜过广受欢迎的Slack服务。

  同样在三月初,Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究组织Hewlett Packard Labs宣布了一项新合作,携手增强最活跃的Apache大数据项目之一的Apache Spark。此次合作将侧重于一个全新类别的分析工作,这种分析工作将受益于大量的共享内存。并且公布了合作的早期成果:更强传送引擎技术,能够更快排序和内存计算;更好的内存使用,能够用更佳性能和使用来实现更广泛的可升级性。

  另外,Hortonworks和Hewlett Packard Enterprise计划为Apache Spark社区带来新技术。

  最后还有一些开源信息,Google在去年底开放了深度学习网络TensorFlow的源代码;去年十二月,Facebook分享了人工智能硬件设计;一月,百度开源关键人工智能(AI)软件Warp-CTC,公开了关键代码;同期,Microsoft也开放了类似的网络CNTK,中国搜索引擎巨头百度也公开了深度学习训练软件。

作者:崔月

来源:IT168

原文链接:一季度大数据热门工具相关事件整理

时间: 2024-10-29 12:02:13

一季度大数据热门工具相关事件整理的相关文章

大数据热门职业薪酬榜 Hadoop人才居首

文章讲的是大数据热门职业薪酬榜 Hadoop人才居首,随着越来越多企业开始投身于大数据技术的革新洪流,对于IT专业人士的市场需求也水涨船高.时至今日,具备收集.整理.分析以及构建不同来源数据技能的人才正迎来自己职业生涯的上升期. 在当下的数字化时代,数据量的丰富程度远远超过历史上的任何时期,很多时候这种丰富程度甚至成为一种沉重的负担.企业开始将大量资源投入到云技术.移动技术以及社交媒体当中.结合这些新兴领域,再加上企业自身运营所必然产生的信息,我们发现目前需要收集的数据总量单单用"爆炸式&quo

数据新闻周报:资本活跃,“数据美国”在线大数据可视化工具上线

行业趋势 近日,麻省理工学院推出了一款名为"数据美国"的在线大数据可视化工具,可以实时分析展示美国政府公开数据库.用户只需要输入任意美国地名,就可以检索到反映当地人口统计数据的可视化图表,包括平均家庭收入.房价等.该工具不但对求学.就业.生活.旅游.购物具有极高的参考价值,而且这些社会学大数据经过各种不同的可视化图表展示,可以生成大量"数据新闻",揭示超出人们经验范围的数据.同时,"数据美国"也是政务公开大数据造福社会的一个活生生的应用案例.该项

高薪技术排行:大数据居首 苹果相关次之

最新调查显示,大数据相关技术囊括了技术领域高薪的Top 3,分别为Hadoop.Big Data及NoSQL.而苹果相关的岗位次之,比如Omnigraffle及Objective-C,而Java.C等主流技术领域的排行并不理想. 以下为译文: 也许一些企业至今还未真正了解大数据的价值,但是却并不影响他们在类似Hadoop及NoSQL等大数据技能上的大笔投资.通过一个2013 Dice Tech Salary Survey了解到,大数据项目的两个支柱(Hadoop及NoSQL)人才的价值高于其它任

视广通钱勇:大数据是工具 不是目的

9月11日,视广通受邀参加了北京市经济和信息化委员会举办的北京市大数据企业第一次调研会.视广通公司的参会代表汇报了公司业务情况,介绍了企业对大数据的认识,并与各企业同行做了深度交流. 资料照片:视广通总经理 钱勇 作为一家充分应用大数据技术的公司,视广通一贯以来对大数据有着独到的理解.视广通总经理钱勇曾不止一次提到:大数据是工具,不是目的,是实现企业目标的手段.如果只是追求大数据这一新奇的概念,为了大数据而大数据,不考虑其如何为商业模式服务,那就把大数据变成了摆在桌上的花瓶,起不到实际的作用和应

做项目首先要选好大数据可视化工具

       数据化运营越来越流行,很多企业都忙着运营起一个个大大小小的项目.但是还是有很多企业的IT人员没能把项目做好,问题漏洞百出.其实做项目首先的一步,就是选好一款适用的大数据可视化工具.俗话说得好,要先工其事,必先利其器.一款好的大数据可视化工具会更有利于数据可视化分析项目的后续开展.那么,大数据可视化工具该怎么选呢,接下来我们来看看.          市面上各式各样的大数据可视化工具有很多,有的是自助式的小型BI,有的是比较复杂的高端BI.项目有大有小,当有的项目没那么复杂,如果配上

大数据同步工具DataX与Sqoop之比较

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据http://www.aliyun.com/zixun/aggregation/34332.html">处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成.Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以

Java程序员使用哪些大数据开发工具?

这是作者在另一个帖子中发布的一项近期调查结果,调查为作者询问一些Java程序员,其在12个月内使用了什么框架开发工具.本次调查中覆盖了大数据工具. 以下是调查所覆盖的主题: 1.语言 2.Web框架 3.应用服务器 4.SQL数据访问工具 5.SQL数据库 6.大数据 7.构建工具 8.云提供商 今天让我们来看看大数据. 根据维基百科,大数据是一个广义的术语,所包含的的内容十分庞大且复杂,以至于传统的数据处理应用程序根本不足以应对. 在许多情况下,使用SQL数据库用于存储/检索数据已经足够了.但

大数据热门词汇齐报到

可以说,大数据是如今IT行业最热门的趋势之一,它催生出了处理大数据的一批全新技术.而新技术带来了新的热门词汇:首字母缩略词.专业术语和产品名称等.连"大数据"这个短语本身都让人犯晕.许多人一听到"大数据",觉得是指"大量数据",而大数据的涵义绝不仅仅涉及数据量的多寡. 下面是我们认为你要熟悉的几个热门词汇,按字母顺序排列. ACID ACID的全称是原子性.一致性.隔离性和持久性,这其实是一组需求或属性:如果这四个方面都得到遵守,就能在处理过程中

五个不容忽视的“非主流”大数据技术工具

大数据的生态系统如今已经非常庞大,涌现大量主流数据处理框架如Hadoop.Spark.Flink.Google的Tensorflow以及其他不计其数的Apache开源项目(最受欢迎的十个开源大数据技术). 今天我们要推荐的五个"非主流"开源大数据技术项目,在某些特定的应用场合,往往能助您出奇制胜. 一.Luigi Luigi是Spotify开发的数据管线批处理工具,热度正在不断飙升.Luigi的定位不是取代底层数据处理工具如Hive或者Pig,而是在众多任务间创建工作流.Luigi原生