Hadoop生态系统在壮大:十大炫酷大数据项目

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。

管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。

旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。

开发人员和企业组织在使用诸多项目,开发大数据技术,并将它们捐献给开源社区,以便进一步发展和采用,其中就包括Spark、Hive、HBase和Storm。

在网飞和领英等一些企业,其中一些技术已用于生产环境。它们让企业组织能够实时处理海量数据,并转换那些数据,为最终客户改善服务。

这些大数据技术常常脱胎于试图改善大数据技术的工作方式、加快处理速度的企业组织。它们代表了生态系统的演变之路和下一波开源技术,这证明明智的参与者组成的社区取得的发展胜过专有企业环境里面的发展。

当前的开源和大数据时代完全始于Hadoop,它常常被誉为是一种面向分布式存储的开源框架,用于在大众化硬件上处理庞大数据集。

Hadoop发行版公司Hortonworks的企业战略副总裁Shaun Connolly在接受采访时告诉《信息周刊》杂志:“作为一种新兴的数据架构,Hadoop成为备受瞩目的中心。Hadoop周围出现了这个生态系统,备受关注的项目围绕它壮大起来。”

而发展并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个顶级项目。其他项目可能会作为Apache软件基金会的孵化器计划(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML机器学习引擎就得到了接受,成为一个孵化器项目。

有许多项目是Apache软件基金会的大数据生态系统的一员。本文介绍了一些重要项目,还介绍了几个新兴项目。欢迎留言交流!

Hadoop

Hadoop其实是开源大数据领域的旗舰技术。它是由雅虎的一个编外项目发展起来的,当时开发人员需要一种方法来存储和处理他们使用新的搜索引擎收集而来的海量数据。这项技术最终捐献给了Apache软件基金会。如今有来自商用公司的三大发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一Doug Cutting最近接受了《信息周刊》杂志的采访,畅谈了Hadoop的发展。

Hive

Apache Hive最初由Facebook开发,后来捐献给了Apache软件基金会。这项技术是一种建立在Hadoop基础上的数据仓库基础设施,提供了数据汇总、查询和分析。

使用Hive的公司包括CNET和eHarmony。

HBase

Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目的是,处理海量数据,便于自然语言搜索。这项技术是一种非关系型的开源分布式数据库,仿照了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。

如今使用HBase的公司包括Adobe、Facebook、Meetup和趋势科技。

Spark

Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,不过速度更快,因为Spark改而使用内存中处理技术,其性能最多高出100倍,这取决于具体应用。

Spark的开发人员现在供职于Databricks,该公司是支持Apache软件基金会内部这个项目的主力军,它还提供商用的Spark即服务( Spark-as-a-Service)。截至2015年年底,Spark是所有大数据项目中最活跃的开源项目,之前12个月有600多个代码捐献者。

如今许多公司使用Spark,包括亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。

Kafka

Apache Kafka起初只是领英公司内部的一个项目,作为一种消息传递系统,用于代理安排该公司面向消费者的职业网站及平台生成和处理的海量实时数据。

2011年,Kafka捐献给了开源社区,2012年从Apache孵化器计划出来。当初开发Kafka的领英开发人员成了从领英拆分出来的Confluent这家新公司的成员。

使用Kafka的公司包括领英、推特、网飞、Pinterest、高盛和Coursera。

Storm

Apache Storm在其项目页面上的描述是,这是一种分布式实时计算系统,让用户很容易可靠地处理无限制的数据流,正如Hadoop用于批量处理,Storm用于实时处理。

这项技术有时被称为是Spark的替代技术。2011年,开发Storm的公司BackType被推特收购。2014年,从孵化器计划出来后,Storm成为了Apache软件基金会的一个顶级项目。

此后,推特开发了自己的内部系统,用于处理最初分派给Storm的任务。使用Storm的公司包括雅虎和Spotify。

Nifi

Apache Nifi原先名叫Niagara Files,这个技术转让项目由美国国家安全局(NSA)开发,2014年11月,它作为一个孵化器项目,捐献给Apache软件基金会。2015年,它成了一个顶级项目。

Nifi旨在处理这个问题:如何让数据在系统之间的流动实现自动化。其在Apache软件基金会上的项目页面介绍,这项技术“支持功能强大、可扩展的有向图,这些有向图涉及数据路由、转换和系统中介逻辑。”

它提供了一种基于Web的用户界面。另外,与NSA开发的其他项目一样,它也提供了安全功能,包括SSL、SSH、HTTPS、加密内容,以及可插入式、基于角色的验证和授权机制。

Flink

2015年1月,Apache基金会接受Apache Flink成为一个顶级项目。这项技术是一种面向批量数据和流数据的分布式数据分析引擎,它提供了使用Java和Scala的编程API。

该项目脱胎于柏林的Stratosphere研究项目。使用Flink的企业组织包括第一资本(Capital One)和Data Artisans。

Arrow

这个月,Apache Arrow被Apache软件基金会接收为一个顶级项目。这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。

据Apache软件基金会声称,Arrow最初是靠来自Apache Drill项目的代码起家的。据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。

Apache软件基金会的更多大数据项目

这些是Apache软件基金会里面Hadoop生态系统中一些备受关注的大数据项目。另外许多是捐献而来的。所有这些项目的开发工作都在进行之中,Apache软件基金会的网站对它们都有全面记载。

Connolly告诉《信息周刊》杂志:“Apache之道就是社区比代码重要。虽然技术值得关注,但是Apache之道是把社区放在首位。”

本文转自d1net(转载)

时间: 2024-11-03 14:22:18

Hadoop生态系统在壮大:十大炫酷大数据项目的相关文章

有一种公司,叫别人的公司!看看老美十大炫酷办公室

有一种公司,叫别人的公司!看看老美十大炫酷办公室 时间:2014-11-04 17:48 来源:经理人分享 作者:佚名 给个酷炫的办公室,才能愉快地干活嘛!飞碟会议室.鸟巢下的吊床. 全方位餐厅.摄影工作室.健身房--OMG,还有神殿,是神殿啊,筒子们!! 作为 挽留最优秀且最聪明的员工的一种方式,现在的很多公司要比以往任何时候更 注重由其工作空间创建的公司环境. 这种变化也是合情合理的--很多专业人士每周在办公室度过的时间要多过在家的时间,而一个能够为集体聚会.集思广益.身心放松和协同合作提供

5 个炫酷的 Unikernels 项目

本文讲的是5 个炫酷的 Unikernels 项目[编者的话]本文简单介绍了 Unikernels,并列举了 5 个炫酷的 Unikernels 项目. Unikernels 正成为微服务领域继 Docker 容器之后的下一个大热门.这里我们看一下能用 unikernels 来做哪些炫酷的事. 首先,我们为初学者简单介绍下什么是 Unikernels.Unikernels 有点类似于容器,允许用户在一个可移植.软件定义的环境里运行应用.但是它们比容器更进一步,直接将运行应用所需要的所有库文件打包

壮大的Hadoop生态系统:十大炫酷项目简介

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大.Apache软件基金会下面有众多的开源大数据技术项目.本文介绍一些重要项目,并顺便了解几个新兴项目. 管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体.连接到物联网中"物件"的传感器.结构化数据.非结构化数据以及可以收集的其他一切数据收集而来.为了应对这项任务,开发人员已开发了一系列新的开源技术. 旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上

猎豹浏览器正式版新增7大炫酷功能

猎豹浏览器正式版于6月19日揭开了面纱.正式版进行了多项改进,使极速.炫酷.安全的三大特性更加凸显,用户体验再上新的台阶.这些改进包括新增iSync云同步.魔方标签.全新皮肤等. 独创魔方标签 猎豹浏览器正式版在新标签页中,提供了最多十二个网站的快速拨号功能,用户可自定义编辑. 最让人惊艳的是猎豹的交互设计.不仅每个拨号都精美地显示了该网站的LOGO和名称,而且它们会与你的鼠标形成互动!鼠标滑上去时,拨号会随之转动,就像它们能感受到鼠标的重力一般,很神奇!当打开其中的页面时,还会有扑面而来的3D

大设计时代:从炫酷外观到整体用户体验层面

当大家逐步开始关心如何摆脱"山寨"时,设计就将占据非常关键的位置. 设计引领创新,这一点几乎是中国工业化过程的空白点,然后互联网改变了人们的行为方式,大大地激发了创新.经历了所谓"山寨"赢得市场的阶段,现代化的企业已经越来越在"大设计"上开动脑筋. 10月23日,极客公园线下活动"设计的力量"在枫蓝小剧场举行,宝马设计工作室(BMW DesignworksUSA)上海设计工作室创意总监安沛杨( Magnus Aspegren)

大数据不是你想有就能有,如何才能“狂拽炫酷吊炸天”

如今,大数据正成为了各大企业都争相推拥的热词,其发展的如火如荼,迅疾如风,猛烈似火.从互联网领域的BAT到各类智能硬件,几乎所有的企业都正在谈大数据. 在这样一股大数据的洪流之下,专门做大数据分析的公司和职业也应运而生,并一路发展壮大.一家被红杉和薛蛮子看好的"神策数据"公司就是其中的代表性玩家. 但其实,大数据幕后的水很深很深,最关键的核心就是如何进行精准的分析,比如从数据采集到数据平台搭建,从数据分析方法到数据指标体系构建,从数据驱动流量分析到数据驱动产品运营等等.还比如,数据的安

大数据时代,喀什中院的“炫酷技能”

数十秒内精准查控"老赖"名下存款,远程视频接访数千里外申诉人,司法公开信息"一网打尽",法官只需输入相关信息,电脑就能自动生成格式化文书,工作效率大大提高,--这些"炫酷技能",都是新疆喀什地区中级人民法院依托"互联网+"技术,在审判和执行工作中实现的创新突破.随着大数据时代的到来,喀什中院与时俱进,积极发挥互联网的传播优势,充分运用信息化手段,提高审判质效,强化司法便民措施,有力地促进了审判执行工作质量和效率的提升. 无纸化

十大最酷云计算应用程序创业企业

软件即服务,这种最初的云计算服务交付模式已经被越来越多的企业所认可,帮助企业获得前所未有的可访问性.责任划分以及易于部署的首选方式. 过去的十年间,SaaS的市场版图已经变得拥挤异常,各种顶尖的软件开发人员完全在云端打造各种应用程序,除了各大软件巨头将自己的流行工具在云端重装上阵,这里仍旧有很大的创新空间. 这里是十家相对年轻的公司,它们提供的解决方案拓宽了云应用程序创新理念,为各种类型的企业客户提供不同的解决方案,解决现实世界中的各种问题. Cloud Cruiser 首席执行官:Dave Z

盘点2014:十家最酷的大数据创业公司

近年来,很少有IT细分市场可以像大数据市场一样吸引企业家的关注.如今,商业和消费者正在产生TB乃至PB级数据,大量公司也加大了研发,致力于收集.存储.管理.分析数据. 以下是2014年大数据领域格外瞩目的十家新兴大数据创业公司 1. Aerospike 创始人和CTO:Brian Bulkowski 包括MongoDB.CouchBD和Redis等公司都在争夺下一代数据库的市场份额.Aerospkie创建于2009年,总部位于加州山景城.该公司研发了一组用于高性能应用的.实时的.闪存优化的NoS