大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。

想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡。

开源大数据的优势不言而喻,但在众多的开源工具中该如何抉择?本文中大数据领域的十个巨头,将有助于你更深入掌握大数据这个行业的发展形势。

1、Hadoop —— 高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

2、Spark —— 使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

3、NiFi —— Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。

4、Apache Hive 2.1 —— Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。

5、Kafka —— Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。

6、Phoenix —— 是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

7、Zeppelin —— Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

8、Sparkling Water —— H2O填补了Spark’s Machine Learning的缺口,它可以满足你所有的机器学习。

9、Apache Beam —— 在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。

10、Stanford CoreNLP —— 自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-07-31 19:38:21

大数据领域开源技术,除了 Hadoop 你还知道哪些?的相关文章

大数据领域开源技术 除了Hadoop你还知道哪些

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展. 想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术.如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析.借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡. 开源大数据的优势不言而喻,但在众多

创业板企业在大数据领域的技术与专利现状分析

大数据时代带来了机遇和挑战,首先获益的便是IT行业.大数据已成为信息产业新的增长点,其发展已从以谷歌(Google).亚马逊(Amazon).雅虎(Yahoo)为代表的互联网大公司,蔓延到越来越多的创业型中小公司,这些公司在其不同的领域进行着各自大数据的发展,创造出了更多的商业模式和经济增长点. 资本市场逐利新概念股总是具有超强的敏锐性,大数据主题投资已在业内引起高度关注,国内多家证券机构也力荐"大数据概念股",其已成为一条全新的投资主线.本文对在创业板上市的计算机企业中涉及大数据的相

联想创投大数据基于开源技术 助力全球智能制造

由中国开源软件推进联盟(COPU)主办的第十一届开源中国开源世界高峰论坛(简称论坛)于2016年6月24日-25日在京举办.这是我国开源界一年一度的嘉年华盛会,也是具有深远影响的国际学术论坛.论坛有力促进开源社区.企业.院校.科研机构.用户之间的相互交流与合作,推动开源软件在中国及全球的发展.联想创投集团大数据业务在此次高峰论坛上展示了联想大数据平台如何协助企业应对全球化挑战和复杂的开源技术,探索出一条制造企业全球大数据方案之路,并运用开源大数据技术助力全球智能制造.联想集团副总裁.首席研究员田

10个大数据领域的杰出公司

本文筛选了近几年在大数据领域具有独特建树的10家企业,涵盖云计算.数据可视化.数据分析应用.商业智能等不同范畴.在大数据领域虽然国外的优秀企业占众多数,但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献. 本文筛选了近几年在大数据领域具有独特建树的10家企业,涵盖云计算.数据可视化.数据分析应用.商业智能等不同范畴.在大数据领域虽然国外的优秀企业占众多数,但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献.所以,这10家企业中也列举了一些在某领域具有突出贡献的国内公司,给大家借鉴.(

对话Hadoop之父Doug Cutting|大数据和开源的未来

前言 对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点.不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力. 在Hadoop生态领域,Cloudera是规模最大.知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一.带着对中国大数据市场的满满诚意,Cloudera创始人.董事长兼首席战略官Mike Olson以及Hadoop之父.Cloudera

荐六十款针对Hadoop和大数据顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一

2017年大数据领域,这7大技术将退役!

文章讲的是2017年大数据领域,这7大技术将退役,我们已经在大数据领域进行了很长时间的探险了,虽然大数据已经不再让人眼前一亮和感到新鲜,但技术的不断更新足以让你时刻关注这个领域.同时,这也是很多企业技术更新最快的领域,但还是有一些技术会长期占据靠前的位置,直到有更好的替代品出现为止. 许多技术在未来面临着很大变化,或者重大升级.以下的这些技术,你或许可以考虑替换掉了: 1.MapReduce. MapReduce速度很慢,它很少成为解决问题的最佳方式.还有其他算法可供选择 - 最常见的是DAG,

大数据领域33个预测,开启未知的2016

数据平民崛起 甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起.该公司称:"虽然复杂的数据统计可能仍局限于数据科学家,但数据驱动的决策不会是这样.在未来一年,更简单的大数据发现工具让业务分析员可以寻找企业Hadoop集群中的数据集,将它们重新做成新的混搭组合,甚至运用探索性机器学习方法来分析它们. "大数据"会消亡 Nucleus Research公司公开发表了不同意见,预测我们所知道的大数据会消亡.该公司称:"在过去两年,每家公司及其人员似

2016大数据领域最有“钱”途的十大职业

缺人,这是全国乃至全球大数据圈都挺蛋疼的一件事儿,一边是"大数据热"疯狂蔓延,一边是 "供血"严重不足.企业家们着急得很,服务器齐齐杵那儿,光耗电不输出也很闹心.Gartner公司早前预测,2015年仅凭大数据就能为全球增加440万个就业岗位,但只有三分之一的岗位可以招到人,意味着近300万的岗位"虚位以待". 而2015年,中国的大数据人才缺口已经超过100万人.在技术.资本和市场的强推下,大数据今年发展的势头更加迅猛了,但大数据人才只有46万