做Hadoop的最佳拍档

  一边积极推出商业版 Hadoop,一边积极投资基于Hadoop发展的大数据分析管理软件商Cloudera,当英特尔近期突然宣布将把这“两条线”合二为一,推出更接地气 的“融合版”Hadoop之时,这个芯片之王在大数据市场的精巧布局和野心也随之露出锋芒——它要打造最适合Hadoop的服务器芯片系统,它要做大数据 时代的王者。

  在方兴未艾的大数据市场,基础架构厂商的商机,毋庸置疑地来自它们与正被广泛使用的开源系统——Hadoop之间的联系。

  从2009年开始,全面拓展大数据市场的英特尔就一直非常重视对Hadoop的研究。可以看到,近年来英特尔推出的Hadoop发行版 (IDH)并未止步于一个单一版本,而是在不断升级:2011年推出IDH 1.0,2012年推出IDH 2.0,今年又推出了IDH 3.1。

  今年3月底,当英特尔宣布投资基于Apache Hadoop发展的大数据软件提供商Cloudera(以7.4亿美元收购Cloudera 18%的股份)时,已经开始有人预测到,英特尔会把IDH变得更接地气,只是没有想到这一变化会来得如此之快。

  接中国地气

  近日,英特尔与Cloudera在上海、北京联合举办了主题为“强强联手,聚焦中国,领航大数据”的合作启动仪式暨新闻发布会。在北京站的发布 会上,英特尔明确表示将从自主订制的Hadoop转向Cloudera产品,不再单独推出新版IDH,取而代之的是IDH(英特尔Hadoop发行版)和 CDH(Cloudera Hadoop发行版)的“融合版”。

  Cloudera的专长是帮助企业用户通过Hadoop管理数据,它也是最早将Hadoop实现商业化的公司,目前在Hadoop商业化领域的 领先地位还无人能及。Cloudera联合创始人、董事长、首席战略官Mike Olson明确表示,英特尔一直是Cloudera最重要的硬件合作伙伴,他们的绝大部分用户都在使用英特尔平台。但过去,英特尔IDH的一些产品性能没 有体现在CDH中,预计在今年的6月、9月、12月会分别发布三个融合版本,逐步完成IDH与CDH融合。

  而英特尔无疑希望,企业对大数据分析的需求能推动高端至强服务器处理器的销售。转向Cloudera版本的Hadoop系统而不是自主开发系统,更有助于这一目标的更快实现。不仅如此,为了加快市场转化的速度,英特尔还在推动Hadoop商业版的“中国化”。

  就大数据市场的规模而言,中国目前已成为仅次于美国的市场。在英特尔,IDH的研发是由中国团队承担的,并最先在中国市场投入使用,目前在中国 已和不少客户开展了合作。在发布会上,过去从未进入过中国市场的Cloudera誓师般地表示,他们将在今年9月份在华建立业务机构,业务将涵盖直销、专 业服务、客户支持、培训,以及研发工作等。作为一家新兴企业,Cloudera在中国市场发展的决心,显然更多来自英特尔的需要——让Hadoop与商业 应用紧密结合的同时,还要“更接中国地气”。

  大数据决定服务器市场未来

  PC市场的变化,让服务器业务成为了英特尔业绩成长的重要驱动。大数据是“物联网”的关键组成部分,也是企业商业模式变革的动力。根据IDC的 数据,全球大数据技术与服务市场的年增长率将为27%,到2017年规模将达到320亿美元。为分析及利用数据提供支撑,已成为包括英特尔在内的IT公司 的一个重大机遇。英特尔当前一边积极向物联网数据采集设备提供处理器,一边积极通过软硬件融合方案,为数据中心提供分析这些设备生成的数据的能力。

  大数据只是刚刚起步的产业,随着数据应用模式的改变,未来IT计算模式也会随之转变。作为计算技术的提供者,英特尔在这一领域的投入和对生态圈 的提前布局显然是明智的。在Mike Olson看来,英特尔在数据中心领域是目前实力最强的公司,特别是对中国商业伙伴的开发,远超竞争对手。与英特尔合作会更容易成就大数据分析类公司实现 市场领先、取胜的目标。“英特尔是大数据市场上,当前占据着极高份额的领先企业,特别是在中国。”他如是表示。

  Wintel联盟让整个业界看到了英特尔为微软带来的“福利”,这让不少新兴的大数据软件公司更愿意加入英特尔的生态圈。Mike Olson直言,英特尔对Linux的投入,与红帽的合作和投资,以及在虚拟化浪潮中,对VMWare投资后形成的技术推力和为VMWare提供的成长机 会,都是促使Cloudera选择英特尔的原因。

  为数据商业加速

  英特尔与Cloudera的合作,对整个IT界而言也将是一个里程碑式的事件。在大数据领域,商业软件厂商与硬件平台厂商的紧密技术整合还是首次,这种变化对加速数据商业的发展是有益的。

  Hadoop只是大数据的基础技术,在满足商业应用的实际需求时,还有很多难以逾越的鸿沟。正如英特尔数据中心事业部副总裁兼数据中心软件部总 经理Boyd Davis所说,通过与Cloudera的深度合作,英特尔的硬件平台将更接近用户的实际需求,帮助其创造出开放且优化的硬件,让计算平台的强劲性能转化 为解决更多商业和公共问题的能力。

  “大数据带来非常庞大的机会,现在我们只是触及到了这些机会的表面而已。”Boyd Davis认为,新的能力、新的商业模式、新的服务模式、新的交互模式在未来几年将实现惊人的发展。与Cloudera合作,会让英特尔更快速达成目标并 迎接大数据的商机,特别是来自中国的商机。在他看来,中国面临着能源、食物和饮用水、公共安全领域的诸多挑战,大数据恰是让这些问题得到解决的途径之一。 英特尔希望能借助一个不一样的技术平台,推动中国本地的创新,最终解决这些问题。

时间: 2024-08-03 13:59:25

做Hadoop的最佳拍档的相关文章

一台物理机开三台虚拟机做hadoop的小项目,请问hadoop要选什么模式的?

问题描述 一台物理机开三台虚拟机做hadoop的小项目,请问hadoop要选什么模式的? 最近刚刚着手,准备在电脑上用VM装三台虚拟机网上看到hadoop的运行模式有独立.伪分布.全分布模式请问我初期学习的时候要用什么模式的?项目开发后期需不需要再修改成其他模式? 解决方案 1)独立模式:在本机模式下测试和调试,适宜用在开发阶段.2)伪分布模式:hadoop守护进程运行在本机上,模拟一个小规模的集群.3)全分布模式:守护进程运行在一个集群上,生产模式 解决方案二: 有三台虚拟机,当然就是全分布模

RHCS做hadoop的nn和jt的HA时的资源书写格式

<?xml version="1.0"?> <cluster config_version="10" name="HDP_NN_Cluster"> <clusternodes> <clusternode name="lab5.mos.com" nodeid="1"> <fence> <method name="1">

大家在做Hadoop优化过程中数据都是哪里获取的

问题描述 大家通过什么方式进行数据的仿真,大家所需的大数据都是哪里获取的,比如并行实现了某项算法或者优化了副本的数量,大家的实验数据来源都是在哪里找到的.还有在实验条件有限的环境下可以租用免费的服务器进行试验吗,自己配置的完全分布式环境太小了. 解决方案 解决方案二:读研时没搞这方面,数据来源不清楚,但是机器实验室还是有几个的,实验室没机器就没辙了~~~

分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天.Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可.这里主要重点说一下集群配置运行的过程. 环境 7台普通的机器,操作系统都是Linux.内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精.JDK必须是1.5以上的,这个切记.7台机器的机器名务必不同,后续会谈

hadoop +hbase +zookeeper 完全分布搭建 (版本二

这里有几个主要关系: 1.经过Map.Reduce运算后产生的结果看上去是被写入到HBase了,但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时,这两个文件存储到了HDFS的DataNode中,HDFS才是永久存储. 2.ZooKeeper跟Hadoop Core.HBase有什么关系呢?ZooKeeper都提供了哪些服务呢?主要有:管理Hadoop集群中的NameNode,HBase中HBaseMaster的选举,Servers之间状态同步等.具体

Ubuntu上搭建Hadoop环境(伪分布式)

首先要了解一下Hadoop的运行模式: 单机模式(standalone)        单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置.在这种默认模式下所有3个XML文件均为空.当配置文件为空时,Hadoop会完全运行在本地.因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程.该模式主要用于开发调试MapReduce程序的应用逻辑. 伪分布模式(Pseudo-Distributed

惠普推Hadoop专用计算平台 快速部署

在惠普年度用户大会上,惠普旗下的AppSystem整合计算平台产品线,首度推出Hadoop专用计算平台--HP AppSystem for Apache Hadoop,通过软硬件的整合,为企业提供一个快速部署的分布式数据处理平台. 惠普解决方案与策略副总裁Paul Miller表示,Hadoop属于MPP(Massive Parallel Processing)分布式并行计算架构,其实是一个颇为复杂的技术,通常需要通过专家的协助来部署,对企业而言技术门坎很高,也因此目前有利用Hadoop来处理大

ssh免密-linux下文件夹复制hadoop问题

问题描述 linux下文件夹复制hadoop问题 两台阿里云服务器centos6.5,做hadoop完全分布式搭建,在搭建过程中采用的非root账户zhm,已经实现通过zhm账户免密登录另外一台阿里云,但是我在配置好hadoop相关配置文件后,将配置好的hadoop文件夹整体复制到另外一台阿里云时,通过zhm账户复制失败(如图),求助这是为什么呢,然后我用root用户,通过输入密码才把文件夹复制过去,zhm用户已经赋权和root一样的,按照我的理解应该是可以复制的啊,希望大神帮解答一下,无线感激

Docker生态不会重蹈Hadoop的覆辙

2016-08-24 晏东 GoDocker 本文作者:晏东 Ghostcloud创始人 今早一起床就看见朋友圈内在转发一篇名为<Docker生态会重蹈Hadoop覆辙?>的文章,作为一个既从事过Hadoop创业,也正在做Docker创业的人,我觉得还是有一些发言权,本文中的观点仅代表个人观点,算是抛砖引玉. 1. 形态上的差异 2013年的时候,Hadoop确实很火,不过当时的感觉是安装和操作极其不方便,如果没有Linux的基础,可能需要个一周都不能搭起一个集群. 因此,不管是国外还是国内都