文章讲的是一季度大数据热门工具相关事件整理,今年一季度,大数据开源圈内最热闹的一件事大概就是Hadoop迎来了它的十岁生日,收到了来自世界各地的各种祝福。Hadoop正式诞生于2006年1月28日,作为一个开源项目的生态系统,它从根本上改变了企业存储、处理和分析数据的方式:Hadoop可以在相同的数据上同时运行不同类型的分析工作。
那一周,有媒体整理了Hadoop这十年来的数据变化:核心Hadoop中目前的代码行数为170万+、自2006年来对Hadoop的提交数量超过12000、自2006年来对核心Hadoop的代码贡献者有800+、Hadoop生态系统中的项目数量从2006年的2个到了25个。
一个月后,雅虎在二月底发布了CaffeOnSpark人工智能的源代码,正式开源这一新的人工智能项目。Yahoo在科技方面的实力大概鲜有人知,其实,开源Hadoop就是Yahoo孵化的,Facebook、Twitter 以及其他不少公司都在用这个数据处理平台。
CafffeOnSpark的根基是深度学习,之前在基于Hadoop集群的大规模分布式深度学习一文中,雅虎就曾介绍,其集Caffe和Spark之长开发CaffeOnSpark用于大规模分布式深度学习。雅虎认为,深度学习应该与现有的,支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中,创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序中。
说到近期大数据领域的红人就不得不提到Spark,近年人气急剧攀升的Spark在今年更是动作频频,一月初刚刚发布了大版本1.6,三月又爆出2.0版本即将上线。
此外,在二月底举行的Spark东部峰会上,硅谷最火的大数据初创公司Databricks也就内存内数据处理工具Spark的未来发展方向做了探讨,以及发布了一系列相关提示。Databricks公司由来自Berkeley和MIT的Spark原班团队创立,作为Spark项目背后的核心商业支持方,它在该项技术成果的演进道路上扮演着重要角色。
Databricks公司CTO兼Spark创始人MateiZaharia谈到即将出炉的Spark2.0时提到,该版本将会有三大核心转变:利用Tungsten项目的下一发展阶段解决Java内存处理局限,从而加快Spark运行速度;将Spark改进为一套实时数据流系统;将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。
而在演讲中未被提及,但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与ApacheArrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。
三月初,思科宣布计划未来三年在德国投资5亿美元,以及设立1.5亿美元的创新基金来帮助强化旗下的Spark服务,挑战企业通讯服务商Slack Technologies。思科一直在试图使得自有的协作工具Spark胜过广受欢迎的Slack服务。
同样在三月初,Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究组织Hewlett Packard Labs宣布了一项新合作,携手增强最活跃的Apache大数据项目之一的Apache Spark。此次合作将侧重于一个全新类别的分析工作,这种分析工作将受益于大量的共享内存。并且公布了合作的早期成果:更强传送引擎技术,能够更快排序和内存计算;更好的内存使用,能够用更佳性能和使用来实现更广泛的可升级性。
另外,Hortonworks和Hewlett Packard Enterprise计划为Apache Spark社区带来新技术。
最后还有一些开源信息,Google在去年底开放了深度学习网络TensorFlow的源代码;去年十二月,Facebook分享了人工智能硬件设计;一月,百度开源关键人工智能(AI)软件Warp-CTC,公开了关键代码;同期,Microsoft也开放了类似的网络CNTK,中国搜索引擎巨头百度也公开了深度学习训练软件。
作者:崔月
来源:IT168
原文链接:一季度大数据热门工具相关事件整理