Hadoop——处理大数据的宠儿

  驱动大数据增长的主要因素包括移动设备和社交网络的大幅度增长、以往纸质文件的数字化以及科研数据的增长。“他们的存档文件正在高速增长,因为他们并不清楚哪些需要保存,哪些不需要保存,”EMC旗下的Isilon公司美国首席技术官Rob Peglar说道。

  各个产业的公司都在为大数据分析投入大量资金。其中一个产业为对病人数据进行分析诊疗的医疗产业。Peglar说,在金融服务产业,对数据进行定性分析也颇受关注。在这方面,分析的是杂乱无章的股票交易数据。大数据分析在制造和设计业的应用也有所增长,但增长最快的市场还是对用户行为数据进行分析以获得市场情报信息的社会媒体和电子商务产业。

  Hadoop——处理大数据的宠儿

  在众多的大数据分析平台当中,最为人所知的是ApacheHadoop平台。这是一个用于分布式计算的开源软件框架。Hadoop源于Google的MapReduce软件框架以及Google使用的专有文件系统“Google文件系统”。Hadoop项目的参与者包括雅虎、LinkedIn、Facebook、Twitter、加州大学伯克利分校、Last.fm等。

  大数据分析需求的增长主要受杂乱无章的数据的驱动,这正是Hadoop所擅长处理的数据。“这是对传统结构化数据库的补充,”Peglar说道。“结构化数据在增长,但是杂乱无章的数据的增长率要快得多。”

  除非能部署一个由Isilon、Teradata或Oracle等公司提供的大数据应用,否则公司很有可能将类似Hadoop的分析平台的计算基础设施部署在商用硬件上。451集团的资深分析师RachelChalmers称,“Hadoop对其运行的基础设施平台做出了某些假设。”

  由于Hadoop基于Google的MapReduce,因此设想它将运行在类似Google的同质商用基础设施之上。此外,它还了解哪些CPU将用于服务器硬盘存储,”Chalmers解释道。

  没有处理大数据的通用平台

  部署哪种类型的分析系统将取决于客户的特定需求。数据分析领域的主要公司Teradata的产品营销总监JimDietz称,某些客户对处理速度的需求高于对处理数量的需求。在这种情况下,他们会购买一个超高性能的应用。而对于那些希望存储并分析数千用户行为数据的客户,他们则需要可存储各种海量数据,并具有高处理性能的解决方案。

  对于专业存储厂商来说,“我们与大数据厂商更多的是合作,不是竞争,因为产品架构不一样。硬盘厂商将硬盘提供给专业存储厂家,专业存储厂家再将多颗硬盘整合到一起提供给IT存储厂商,IT存储厂商的任务是将这些基础存储介质整合成一个应用系统给上端大量的数据来做存储、交换、分析和保护。

  此外,公司所部署的解决方案设计还必须具有足够的灵活性,以应对未来的强劲增长需求。

  大数据意味着高密度

  Peglar说,可能影响数据中心管理者大数据(尤其是杂乱无章的大数据)基础设施部署的首要因素是存储。这些存储阵列的面积和电力需求取决于它们对能源及对可用存储空间的使用效率。

  计划实施大数据分析

  “例如,IT工作人员需要到各业务部门进行咨询,看看这些业务部门是否有部署大数据应用程序,如Hadoop的需求,结果是没有任何部门对其感兴趣。”科尔特说。“如果没有具体的业务需求或应用程序,那么其就变成了仅仅只是一种单纯的技术。”

  科尔特说,那些推出了大数据分析的企业,往往是在金融服务和医疗保健领域,在这些领域,大量的数据可以被用于归结揭示趋势和最佳做法。

  TheInfoPro公司每年进行一次热门技术指数调查,询问数百名IT专业人士关于他们的技术计划相关问题。该公司最新调查活动是在2011年8月至今年四月期间进行的。

  不足为奇的是,受访者再次选择服务器虚拟化技术作为企业能力增长的主要驱动力,与光纤通道SAN是企业数据存储的主要目标。67%的受访者表示,他们将80%到100%的生产服务器连接到光纤通道SAN。

  驱动器容量的增长

  然而,去年,随着SAS、固态硬盘(SSD)和SATA驱动器逐渐占据企业占主导地位,使得光纤通道硬盘驱动器市场大受打击。

  如果问问这些企业在2011年购买了什么新的磁盘存储设备,48%的受访者表示购买了光纤通道驱动器,31%的表示SATA驱动器,19%的为SAS,2%的为SSD固态硬盘驱动器。但是,当被问及这些企业今年采购增长最多的设备,41%的受访者表示他们购买了SAS驱动器,35%的为SSD固态硬盘驱动器;23%的为SATA驱动器;11%的表示为光纤通道。

  2011年企业购买的驱动器类型

  在调查中发现,规划部署SSD技术的企业数量从去年的7%跃升至今年的37%。

  “这是一个非常大的飞跃,毕竟这些企业在之前并没有计划使用SSD固态硬盘。这一比例从42%下降到23%。”库尔特说。

  混合阵列和SSD固态硬盘

  大多数企业数据中心使用SSD固态硬盘与旋转盘的混合阵列,而新建的数据中心很多采用全固态阵列和服务器SSD固态硬盘。EMC作为固态混合阵列第一的供应商,远远超过竞争对手。紧随EMC之后的是由NetApp、日立数据系统(日立)、IBM公司、惠普、甲骨文和戴尔。

  哪些供应商的产品正在使用混合阵列固态硬盘?

  当被问及哪些供应商提供固态存储服务器,Fusion-io则高居榜首,其次是IBM、惠普、甲骨文、戴尔和希捷。EMC为列第九,落后于NetApp。

  调查显示,排名前列的固态供应商分别为:Fusion-io公司、PureStorage公司、NimbusData、NimbleStorage公司、GridironSystems公司和Kove。Kove公司除了生产所有DRAM设备之外,该公司同时还出售接口闪存卡和all-flash阵列或用具。

  供应商固态服务器首选是Fusion-io,其次是IBM公司、惠普、甲骨文和戴尔。希捷位列第六。

  当被问及他们是否会实施all-flash阵列,7%的受访者表示他们已经在使用该技术,而86%的受访者表示目前没有实施的计划。另外,有4%的受访者表示他们计划购买all-flash阵列,但应该是在之后的半年到18个月的时间内。2%的受访者表示他们18个月之后实施该计划。

  马特 沃特尔斯,是三菱电力系统美洲分公司的企业基础设施的建筑师,并未参与TheInfoPro公司的调查。但他表示,他所在的企业在去年十二月安装了来自NimbusStorage公司的all-flash阵列,以解决他们企业的SAP环境的I/O放缓问题。

  沃特尔斯最初试图把第二组处理器放入他所有的SAP服务器中,升级内存达到其最大容量,但问题依然存在。他最后回到TB尺寸的SAP数据库和主存储装载数据缩小了性能问题,这在当时是采用的一个惠普的EVA阵列。增加SSD到EVA的成本比购买all-flash阵列更昂贵,沃特尔斯说。

  Nimbus公司的阵列支持2TB的存储容量,成本约40000美元,他说。

  Nimbus公司性能优越的快闪存储阵列,不仅消除了数据库的瓶颈,也将数据备份的时间从在EVA上的四小时削减到全新闪存阵列的15分钟。

  “到目前为止,其性能表现都让我十分满意。没有一个单一的故障。”他说。我在上午想到一个阵列,下午就可以上线了。就这么简单。”

  沃特尔斯的环境隔离闪存存储到一个应用程序:SAP。但是,那些参与了TheInfoPro公司调查的人发现,数据自动分层,或阵列中的各个驱动器类型之间迁移数据的能力,成为了最热门的存储技术。

  自动分层将数据在高效固态硬盘之间移动,或随着数据访问频率降低,从硬盘移动到大容量,低性能的磁盘。

  “其中的一个基本组件为磁盘驱动器,以及所选平台对该磁盘空间的使用效率,”Peglar说道。目前,功率密度是部署大数据分析平台过程中计算领域的一个主要关注点;此外,磁盘阵列所消耗的电力也越来越成为关注的重点,他说道。

  该关注主要源于所需存储阵列的规模,以及这些存储需求的增长率。Peglar发现,在短短几年的时间里,某些客户的集群从1拍字节(petabyte)增长到了5拍字节(petabyte)。

  大数据计算节点部署的密度可能非常高。Peglar说,这些部署的功率密度可达到3kW或更高。这对于数据中心的管理者确定电力和制冷基础设施的规格具有明显意义。

时间: 2024-10-13 09:38:09

Hadoop——处理大数据的宠儿的相关文章

hadoop处理大数据视频的问题

问题描述 hadoop处理大数据视频的问题 我有一段治安监控视频1个G大小,我现在想通过算法计算出视频里全部的有移动物体的目标片段,但是单台机器任务计算非常慢,我是否可以通过Hadoop实现快速计算,具体的流程是什么样de ?谢谢 解决方案 把视频文件通过hadoop fs put放到集群上,然后通过集群来进行元算 解决方案二: 首先放到hadoop集群里,然后编写mapreduce程序 解决方案三: 大数据处理之hadoop(一)

《Hadoop海量数据处理:技术详解与项目实战》一1.2 Hadoop和大数据

1.2 Hadoop和大数据 Hadoop海量数据处理:技术详解与项目实战 在人们对云计算这个词汇耳熟能详之后,大数据这个词汇又在最短时间内进入大众视野.云计算对于普通人来说就像云一样,一直没有机会能够真正感受到,而大数据则更加实际,是确确实实能够改变人们生活的事物.Hadoop从某个方面来说,与大数据结合得更加紧密,它就是为大数据而生的. 1.2.1 大数据的定义 "大数据"(big data),一个看似通俗直白.简单朴实的名词,却无疑成为了时下IT界最炙手可热的名词,在全球引领了新

零售业如何用Hadoop开启大数据之门?

文章讲的是零售业如何用Hadoop开启大数据之门,在过去几年,全球零售商一直试图利用大数据创造价值.由于其大数据分析基础架构的限制,许多工作被一再推迟.Hadoop为这些零售商打开了新的大门,它可以解决他们在过去几年在大数据领域面临的许多问题和挑战. Hadoop:跨多门编程语言的大数据解决方案 Hadoop背后的技术最初是由Google大约在10年前开发的.核心代码主要是用Java编写的,但有一些是用C编写的.然而,它运行在一个称为MapReduce的编程模型中,这允许开发人员用其他语言创建新

基于Hadoop的大数据企业前十大集合

超人气Hadoop初创公司前两名 这已经不再是什么秘密了,全球的数据正在以几何数字增长,借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司.作为Apache的一个开源分支Hadoop几乎已经成为了大数据的代言词.据Gartner估计,目前的Hadoop生态系统市场价值大约为77,000,000: 该研究公司预计,这一数字到2016年将迅速增加到8.13亿美元. 在Hadoop市场快速发展的大环境下,出现了大量的初创型企业来分这将近十亿美元的大馅饼. 1.Platfora 他们

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

Hadoop证明大数据大有作为的10个理由

文章讲的是Hadoop证明大数据大有作为的10个理由,大数据已经成为2012年IT界最时髦的一个词,几乎每个IT人士都在谈论大数据.随着互联网科技日益成熟,各种类型的数据增长将会超越历史上任何一个时期;用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具.以下一组幻灯片截图(欲查看原幻灯片请点击文末原文地址)主要是通过分析云计算平台Hadoop,向大家展示了大数据分析将大有作为的10个理由. 1. Hadoop用户迅速增长 越来越多企业开始使用Hadoop平台处理大量数据

Hadean完成260万美元融资,将颠覆 Spark、Hadoop等大数据框架

众所周知,利用算法分析不同规模的数据量时所需要的服务器资资源是不一样的 .许多企业在做大数据分析时,尤其是数据量非常庞大时,所需要的服务器资源仍是一笔无法避免巨大开销. 然而一家来自伦敦的公司近期声称他们创新型的解决了这一难题,他们的解决方案将在无须占用任何工程资源的前提下用算法对任意规模数据进行运算与分析. 听起来虽然不可思议,但资本还是用真金白金给出了回复.伦敦的Hadean今日完成了260万美元的种子轮投资,投资方为White Cloud Capital 和 Entrepreneur Fi

Hadoop和大数据两个世界是合并还是冲突?

在数据库格式领域将会发生一场战争吗?Hadoop和大数据这两个世界在企业界会合并还是冲突?就在Janath Manohararaj以蓝十字蓝盾协会(Blue Cross and Blue Shield Assoc.:美国第一大私人健康http://www.aliyun.com/zixun/aggregation/6173.html">保险公司集团----译者注)数据库服务团队负责人的身份作客SiliconANGLE的流动新闻平台CUBE之前,他与CUBE的搭档主持人John Furrier

大数据“流言”:解析Hadoop和大数据的七误解

对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着"有色"的观点去制定策略. 如今,数据量在以惊人的速度增长,从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%,AT&T更是声称无线数据的流量在过去的5年内增长200倍,从互联网内容.电子邮件.应用通知.社交消息以及每天接收的消息都在显著的增长,这也是众多大企业都聚焦大数据的原因所在. 毫无疑问,Hadoop成为解决大数据需求的主要投资领域之一,而类似