本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。
在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为60分钟,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。
社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每48小时产生的数据量相当于人类文明到2003年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。
除此之外,传统企业同样面临大数据的挑战。据Gartner预测,企业数据将在五年内增加800%,其中80%是非结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop逐渐成为全球IT产业的宠儿。
Hadoop是一个100%的分布式文件系统,被称为继Linux以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。
传统数据库的Hadoop梦想
与Hadoop不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据IDC统计,2011年全球数据总量已经达到了1.8ZB,2020年将达到35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词——Hadoop。
Hadoop分布式系统基础架构,主要由HDFS、MapReduce和HBase组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而Hadoop擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。Hadoop对数据库厂商而言,既是威胁,也是机遇,如果能够让Hadoop为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持Hadoop的数据库进行盘点,并对其大数据策略简要分析。
·Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的Oracle数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和RDBMS平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到Hadoop在大数据处理方面的潜力,推出以Hadoop为基础的大数据机(Big Data Application),其中包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器以及开源R,并与Cloudera公司合作提供Apache Hadoop系列软件。
·IBM DB2:IBM是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM中国研究院院士、首席技术官王云曾在2012中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于OLTP功能,能够保证数据准确记录;而大数据是新的应用,是OLAP的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括Hadoop和Stream Computing两个组件,通过新的路径解决大数据分析处理。
·SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软SQL Server 2012引入Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在Windows Azure平台和Windows Server上提供 Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与Hadoop是一个强强组合,能够把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。
·SAP:SAP公司是全球知名的企业管理软件供应商,自2010年SAP收购Sybase以来,开始成为数据库界一颗冉冉升起的新星。SAP将数据库技术作为2012年重点发展领域之一,形成了以SAP HANA为核心,以SAP Sybase数据库为基础的大数据战略。在这一战略中,特别重要的一环就是Hadoop。通过SAP HANA和SAP Sybase IQ与Hadoop的集成,增强对Hadoop等大数据源的获取能力,并提供深度集成的预处理基础架构。
·EMC Greenplum:EMC是全球知名信息存储服务提供商,与SAP相似,在2010年收购了Greenplum,开始发展其数据库市场。目前Greenplum的数据库产品包括传统的Greenplum Database和Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入Greenplum中进行存储和分析。EMC在中国的市场战略,以“大数据推动业务转型”为核心,EMC数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC之所以会推出Greenplum Hadoop版本,是对Hadoop的未来发展前景充满信心。
除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入Hadoop阵营,这其中还包括Teradata、Informatica、Pentaho、Talend等数据库、数据仓库及商业智能服务提供商。此外,Hadoop还是NoSQL数据库的主要架构之一。
Hadoop从应用到系统架构
从应用层面来看,不管是数据库还是商业智能厂商对Hadoop都相当重视。与此同时,传统硬件厂商也将Hadoop作为大数据战略至关重要的一环。近期,全球知名的半导体芯片制造商英特尔公司推出优化后的Hadoop发行版,希望通过英特尔的市场先机和技术优势,将Hadoop推广至全球市场,以应对大数据的挑战。
英特尔的专长是做硬件,SAP、甲骨文等主流应用厂商的大数据产品都采用英特尔的至强处理器。但英特尔在软件行业也颇有建树,英特尔每年都有大量的开源技术专家参与开发开源项目,仅中国的上海研究院,做开源研究的就有200多人。比较知名的开源项目包括TIZEN项目和Yocto项目,其中TIZEN项目是以MeeGo为基础的开源项目;Yocto项目,以Linux为基础,但它不是Linux的分销,而是提供一个自定义项目。
在这些开源项目中,英特尔的Hadoop发行版也是其中的代表。这是一套完整的解决方案,针对不同行业客户进行系统整合,根据不同用户的需求实现个性化解决方案。Hadoop China发起人查礼博士曾表示,开源Hadoop技术难度大,需要专业技术人员提供支持,且技术门槛高,一般企业没有技术实力使用开源版的Hadoop。
英特尔Hadoop发行版的出现,从硬件和软件层面分别对Hadoop进行优化,为企业大数据处理提高了稳定性和易用性。中国联通研究院就针对互联网用户的上网记录查询系统部署了英特尔Hadoop发行版, 黄文良院长表示,该查询系统设计之初也曾尝试使用Hadoop的开源版本,但与英特尔Hadoop发行版的性能相比,认为无论在监控能力还是稳定性上都有很大区别。
此外,英特尔在CPU、存储、内存等技术上不断创新,为Hadoop的发展提供硬件支持。英特尔基于Hadoop开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop的处理能力达到“接近于实时”的处理效果。并通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。
英特尔这种软硬结合的策略能够比较彻底的解决大数据难题。英特尔作为硬件行业的领袖,已经率先发力大数据,相信未来会有更多的硬件厂商拥抱Hadoop,布局大数据市场。
小结
不管是从应用层面还是系统架构层面均可以看出,Hadoop对大数据的影响巨大。就像IDC预测的那样,在未来两三年当中,Hadoop会有一个很明显的商业化的过程,Hadoop商业化的打包产品会不断地向市场推出。Hadoop将同Linux一样,迎来发展的高潮期。对于传统IT厂商而言,这是利用Hadoop,真正实现大数据的商业价值的一个机遇。
作者: 王玉圆
来源: IT168
原文标题:大数据来袭 传统IT厂商紧握Hadoop机遇