Hadoop并非大数据处理的一切 - 产品和技术

Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48      来源:赛迪网     作者:

云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本。Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图。从EMC、Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略。现今Hadoop已经成为IT商场吸引客户的热点词汇。

Hadoop的成长得到了个人开发者、初创公司和大企业的支持。这也给予用户长时间使用Hadoop提供了潜在的信心。但是由于不同厂商对代码的持续改善也带来产品相互无法操作的问题。Hadoop目前的状况和Android极其类似。

大多数企业并未真正了解大数据

“大数据”的优势并不只是规模,还在于性能,无论数据集合的维数有多少。这对于直接分析非常重要,例如评估某位客户在网站上的行为来更好地了解他们需要什么支持或寻找什么产品,或者搞清当前天气和其他条件对于送货路线和时间安排的影响。这正是服务器集群、高性能文件系统和并行处理的用武之地。过去,这些技术过于昂贵,只能为大企业所采用。今天,虚拟化和商用硬件大大降低了使用这些技术的成本,从而使“大数据”可为中小企业所用。

那些较小的企业还有另一条利用“大数据”分析的途径——云。“大数据”云服务开始出现,提供迅速、高效执行分析的平台和工具。

Capgemini的CTO Joe Coyle就表示大数据将成为未来趋势,但许多企业还不明白这其中的含义。客户询问最多的就是云计算和大数据这两个概念现今在Hadoop技术大热的同时业界也发出了不同的声音。一些厂商指出企业有些过于热炒Hadoop的相关概念了。搭建和维护Hadoop集群的复杂性需要相关从业人员专业知识的支持,而雇佣相关人员的代价是昂贵的。JP摩根大通总经理Larry Feinsmith日前曾表示,他们不仅愿意聘用合格的专业人士,还会提供比业界高出10%的优厚待遇。

并不是所有行业都应部署Hadoop

制造业务本身以及产品生命周期管理通常会给制造业的ERP和库存系统制造大量的关系和非关系数据。企业都希望拥有一个完美的大数据收集和分析解决方案,但是并不是所有企业都一定要即刻转换到Hadoop。

通用电气智能平台部门已经构建了检测软件以收集从复杂制造业中产生的各种数据。这一举措也推动了其自身Proficy Historian 4.5软件更快的发展。Proficy Historian承诺其提供的方法可比使用Hadoop更可靠。通用公司企业数据管理部的Brian Courtney表示公司现成的解决方案可提供一个媲美Hadoop的环境,同时比Hadoop更具优势的是他们的成本更低,同时要比Hadoop更好驾驭。

通用电气拥有大量的历史数据,这些历史数据大多来自生产和测试阶段。Proficy Historian用来处理像波形一样源源不断的由产品制造和测试产生的关系和非关系数据,并可善加利用以便预测可能会发生的问题。

举例来说,当涡轮发动机启动时,Proficy Historian可检测并查看相应的电子签名。在正常启动并进行负载测试时如果有异常会发生怎样的状况?之前有类似的状况吗?当发现有和以往类似的系统故障时还可以查看解决此故障在以往所花费的时间,以便制造商选择他们排除错误的优先级。Proficy Historian还可以通过和以往的历史数据进行对比,以探究过往是否有类似的问题,并提前生成未来可能发生那些其他异常的报告。Brian Courtney说到。

Proficy软件的新版本旨在处理更多大数据。Proficy的早期版本支持200万个标签,现今Proficy已支持多达1500万个标签。

亚马逊部署HPCC在其云计算平台

亚马逊已经将其云计算平台上的运行软件调整为HPCC。HPCC是LexisNexis公司推出的一款开源的数据处理方案。这一举措也让HPCC系统替代现今流行的Hadoop想法又更进一步。

HPCC系统的CTO Armando Escalante在9月曾表示尽管HPCC现今还不能像Hadoop那样吸引大型企业和政府,但这也促使HPCC的开发者生态环境的发展,就好象当年Hadoop一样。

现今也有一些分析人士看好HPCC系统,不过HPCC社区要想成为像Hadoop社区那样充满活力还需要很长的一段路要走。现今Amazon已经为HPCC在AWS或云中运行带来了一个良好的范例,HPCC支持AWS的Elastic MapReduce。Amazon表示未来将带来更多的惊喜。

从技术角度看,现今Amazon Web Services只运行了HPCC的处理大数据的部分方式——Thor Data Refinery Cluster。该平台还包括另一种处理数据的方式Roxy Rapid Data Delivery Cluster。Roxy作为数据仓库和数据查询层起到的作用类似于Apache的Hive和HBase。

Hadoop项目中的HBase和Hive都拥有自己的语言。而HPCC系统平台则全部采用被称之为ECL(Enterprise Control Language)的语言。

时间: 2024-11-10 07:31:37

Hadoop并非大数据处理的一切 - 产品和技术的相关文章

观点:Hadoop并非大数据处理的一切

云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hadoop已经成为IT商场吸引客户的热点词汇. Hadoop的成长得到了个人开发者.初创公司和大企业的支持.这也给予用户长时

不得不用Hadoop进行大数据处理的五大理由

Joe http://www.aliyun.com/zixun/aggregation/33805.html">Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如"可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据--"但当他部署Hadoop用于大数据处理分析的时候,他才意识到它并不是无所不能. 在Quantivo,Joe及其同事已经"探索了许多方法

如何利用Hadoop廉价大数据处理分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势. 网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处 理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Lin

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

数据为王 Hadoop与大数据处理

随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注.<著云台>的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱.大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十.数百或甚至数千的电脑分配工作.简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术.明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜

Hadoop:大数据处理最好工具

架构大数据解决方案的软件工程师们都知道,http://www.aliyun.com/zixun/aggregation/13782.html">业务分析有一项技术跨越了SQL数据库.NoSQL数据库,非结构化数据.面向文档数据存储及大型处理.如果你猜到了Hadoop,那你回答正确.Hadoop也是许多巨头公司具有的一个共性,如亚马逊.雅虎.AOL.Netflix.eBay.微软.谷歌. Twitter和Facebook.IBM甚至是走在时常的前沿,促进Hadoop进行企业分析.此开源模型无

IDC:Hadoop MapReduce收入将迅猛增长 - 产品和技术

IDC:Hadoop MapReduce收入将迅猛增长 发布时间:2012.05.14 17:10 &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;    来源:赛迪网     作者:赛迪网 来自IDC的最新研究显示,2011年全球Hadoop-MapReduce生态系统软件市场收入大约是7700万美元,预计2016年将增长至8.128亿美元,复合年增长率(CAGR)达到60.2%. IDC信息管理软件研究项目副总

2013 Hadoop Summit 大数据产品汇总

大数据是当下IT领域最活跃的话题之一.没有比近日在圣何塞举行的Hadoop Summit 2013更好的地方去了解关于大数据的最新动态了. 有超过60家大数据公司参与其中,既包括像英特尔和Salesforce.com这样的知名厂商,也有像Sqrrl和Platfora这样成立没有多久的初创公司.以下是这次峰会上展示的13款全新的或者增强的大数据产品. 1. Continuuity开发公司现在支持批量处理 Continuuity发布了支持批量处理的Continuuity Developer Suit

巧妙利用Hadoop大数据处理功能

Hadoop的大http://www.aliyun.com/zixun/aggregation/14345.html">数据处理功能可用来挖掘数据.探索看起来没有关联的信息之间的关系.以及快速解决软件工程师使用传统技术正在努力解决的问题挖,对Hadoop的大数据处理功能如此之多的用途软件专业人士从来就没有感到奇怪过. 住院的病人是否正在饱受着葡萄球菌感染的痛苦?当谈论到使用多种NoSQL和Hadoop的方法解决真实世界问题时,全球教育Hortonworks的高级主管Danielle Tom