Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48 来源:赛迪网 作者:
云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本。Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图。从EMC、Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略。现今Hadoop已经成为IT商场吸引客户的热点词汇。
Hadoop的成长得到了个人开发者、初创公司和大企业的支持。这也给予用户长时间使用Hadoop提供了潜在的信心。但是由于不同厂商对代码的持续改善也带来产品相互无法操作的问题。Hadoop目前的状况和Android极其类似。
大多数企业并未真正了解大数据
“大数据”的优势并不只是规模,还在于性能,无论数据集合的维数有多少。这对于直接分析非常重要,例如评估某位客户在网站上的行为来更好地了解他们需要什么支持或寻找什么产品,或者搞清当前天气和其他条件对于送货路线和时间安排的影响。这正是服务器集群、高性能文件系统和并行处理的用武之地。过去,这些技术过于昂贵,只能为大企业所采用。今天,虚拟化和商用硬件大大降低了使用这些技术的成本,从而使“大数据”可为中小企业所用。
那些较小的企业还有另一条利用“大数据”分析的途径——云。“大数据”云服务开始出现,提供迅速、高效执行分析的平台和工具。
Capgemini的CTO Joe Coyle就表示大数据将成为未来趋势,但许多企业还不明白这其中的含义。客户询问最多的就是云计算和大数据这两个概念现今在Hadoop技术大热的同时业界也发出了不同的声音。一些厂商指出企业有些过于热炒Hadoop的相关概念了。搭建和维护Hadoop集群的复杂性需要相关从业人员专业知识的支持,而雇佣相关人员的代价是昂贵的。JP摩根大通总经理Larry Feinsmith日前曾表示,他们不仅愿意聘用合格的专业人士,还会提供比业界高出10%的优厚待遇。
并不是所有行业都应部署Hadoop
制造业务本身以及产品生命周期管理通常会给制造业的ERP和库存系统制造大量的关系和非关系数据。企业都希望拥有一个完美的大数据收集和分析解决方案,但是并不是所有企业都一定要即刻转换到Hadoop。
通用电气智能平台部门已经构建了检测软件以收集从复杂制造业中产生的各种数据。这一举措也推动了其自身Proficy Historian 4.5软件更快的发展。Proficy Historian承诺其提供的方法可比使用Hadoop更可靠。通用公司企业数据管理部的Brian Courtney表示公司现成的解决方案可提供一个媲美Hadoop的环境,同时比Hadoop更具优势的是他们的成本更低,同时要比Hadoop更好驾驭。
通用电气拥有大量的历史数据,这些历史数据大多来自生产和测试阶段。Proficy Historian用来处理像波形一样源源不断的由产品制造和测试产生的关系和非关系数据,并可善加利用以便预测可能会发生的问题。
举例来说,当涡轮发动机启动时,Proficy Historian可检测并查看相应的电子签名。在正常启动并进行负载测试时如果有异常会发生怎样的状况?之前有类似的状况吗?当发现有和以往类似的系统故障时还可以查看解决此故障在以往所花费的时间,以便制造商选择他们排除错误的优先级。Proficy Historian还可以通过和以往的历史数据进行对比,以探究过往是否有类似的问题,并提前生成未来可能发生那些其他异常的报告。Brian Courtney说到。
Proficy软件的新版本旨在处理更多大数据。Proficy的早期版本支持200万个标签,现今Proficy已支持多达1500万个标签。
亚马逊部署HPCC在其云计算平台
亚马逊已经将其云计算平台上的运行软件调整为HPCC。HPCC是LexisNexis公司推出的一款开源的数据处理方案。这一举措也让HPCC系统替代现今流行的Hadoop想法又更进一步。
HPCC系统的CTO Armando Escalante在9月曾表示尽管HPCC现今还不能像Hadoop那样吸引大型企业和政府,但这也促使HPCC的开发者生态环境的发展,就好象当年Hadoop一样。
现今也有一些分析人士看好HPCC系统,不过HPCC社区要想成为像Hadoop社区那样充满活力还需要很长的一段路要走。现今Amazon已经为HPCC在AWS或云中运行带来了一个良好的范例,HPCC支持AWS的Elastic MapReduce。Amazon表示未来将带来更多的惊喜。
从技术角度看,现今Amazon Web Services只运行了HPCC的处理大数据的部分方式——Thor Data Refinery Cluster。该平台还包括另一种处理数据的方式Roxy Rapid Data Delivery Cluster。Roxy作为数据仓库和数据查询层起到的作用类似于Apache的Hive和HBase。
Hadoop项目中的HBase和Hive都拥有自己的语言。而HPCC系统平台则全部采用被称之为ECL(Enterprise Control Language)的语言。