大数据来袭 传统IT厂商紧握Hadoop机遇

本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。

  在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为60分钟,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。

  社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每48小时产生的数据量相当于人类文明到2003年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。

  除此之外,传统企业同样面临大数据的挑战。据Gartner预测,企业数据将在五年内增加800%,其中80%是非结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop逐渐成为全球IT产业的宠儿。

  Hadoop是一个100%的分布式文件系统,被称为继Linux以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。

  传统数据库的Hadoop梦想

  与Hadoop不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据IDC统计,2011年全球数据总量已经达到了1.8ZB,2020年将达到35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词——Hadoop。

  Hadoop分布式系统基础架构,主要由HDFS、MapReduce和HBase组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而Hadoop擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。Hadoop对数据库厂商而言,既是威胁,也是机遇,如果能够让Hadoop为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持Hadoop的数据库进行盘点,并对其大数据策略简要分析。

  ·Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的Oracle数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和RDBMS平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到Hadoop在大数据处理方面的潜力,推出以Hadoop为基础的大数据机(Big Data Application),其中包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器以及开源R,并与Cloudera公司合作提供Apache Hadoop系列软件。

  ·IBM DB2:IBM是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM中国研究院院士、首席技术官王云曾在2012中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于OLTP功能,能够保证数据准确记录;而大数据是新的应用,是OLAP的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括Hadoop和Stream Computing两个组件,通过新的路径解决大数据分析处理。

  ·SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软SQL Server 2012引入Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在Windows Azure平台和Windows Server上提供 Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与Hadoop是一个强强组合,能够把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。

  ·SAP:SAP公司是全球知名的企业管理软件供应商,自2010年SAP收购Sybase以来,开始成为数据库界一颗冉冉升起的新星。SAP将数据库技术作为2012年重点发展领域之一,形成了以SAP HANA为核心,以SAP Sybase数据库为基础的大数据战略。在这一战略中,特别重要的一环就是Hadoop。通过SAP HANA和SAP Sybase IQ与Hadoop的集成,增强对Hadoop等大数据源的获取能力,并提供深度集成的预处理基础架构。

  ·EMC Greenplum:EMC是全球知名信息存储服务提供商,与SAP相似,在2010年收购了Greenplum,开始发展其数据库市场。目前Greenplum的数据库产品包括传统的Greenplum Database和Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入Greenplum中进行存储和分析。EMC在中国的市场战略,以“大数据推动业务转型”为核心,EMC数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC之所以会推出Greenplum Hadoop版本,是对Hadoop的未来发展前景充满信心。

  除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入Hadoop阵营,这其中还包括Teradata、Informatica、Pentaho、Talend等数据库、数据仓库及商业智能服务提供商。此外,Hadoop还是NoSQL数据库的主要架构之一。

  Hadoop从应用到系统架构

  从应用层面来看,不管是数据库还是商业智能厂商对Hadoop都相当重视。与此同时,传统硬件厂商也将Hadoop作为大数据战略至关重要的一环。近期,全球知名的半导体芯片制造商英特尔公司推出优化后的Hadoop发行版,希望通过英特尔的市场先机和技术优势,将Hadoop推广至全球市场,以应对大数据的挑战。

  英特尔的专长是做硬件,SAP、甲骨文等主流应用厂商的大数据产品都采用英特尔的至强处理器。但英特尔在软件行业也颇有建树,英特尔每年都有大量的开源技术专家参与开发开源项目,仅中国的上海研究院,做开源研究的就有200多人。比较知名的开源项目包括TIZEN项目和Yocto项目,其中TIZEN项目是以MeeGo为基础的开源项目;Yocto项目,以Linux为基础,但它不是Linux的分销,而是提供一个自定义项目。

  在这些开源项目中,英特尔的Hadoop发行版也是其中的代表。这是一套完整的解决方案,针对不同行业客户进行系统整合,根据不同用户的需求实现个性化解决方案。Hadoop China发起人查礼博士曾表示,开源Hadoop技术难度大,需要专业技术人员提供支持,且技术门槛高,一般企业没有技术实力使用开源版的Hadoop。

  英特尔Hadoop发行版的出现,从硬件和软件层面分别对Hadoop进行优化,为企业大数据处理提高了稳定性和易用性。中国联通研究院就针对互联网用户的上网记录查询系统部署了英特尔Hadoop发行版, 黄文良院长表示,该查询系统设计之初也曾尝试使用Hadoop的开源版本,但与英特尔Hadoop发行版的性能相比,认为无论在监控能力还是稳定性上都有很大区别。

  此外,英特尔在CPU、存储、内存等技术上不断创新,为Hadoop的发展提供硬件支持。英特尔基于Hadoop开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop的处理能力达到“接近于实时”的处理效果。并通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。

  英特尔这种软硬结合的策略能够比较彻底的解决大数据难题。英特尔作为硬件行业的领袖,已经率先发力大数据,相信未来会有更多的硬件厂商拥抱Hadoop,布局大数据市场。

  小结

  不管是从应用层面还是系统架构层面均可以看出,Hadoop对大数据的影响巨大。就像IDC预测的那样,在未来两三年当中,Hadoop会有一个很明显的商业化的过程,Hadoop商业化的打包产品会不断地向市场推出。Hadoop将同Linux一样,迎来发展的高潮期。对于传统IT厂商而言,这是利用Hadoop,真正实现大数据的商业价值的一个机遇。

作者: 王玉圆 

来源: IT168

原文标题:大数据来袭 传统IT厂商紧握Hadoop机遇

时间: 2024-11-01 07:03:57

大数据来袭 传统IT厂商紧握Hadoop机遇的相关文章

王叁寿:大数据是传统信息化厂商的掘墓人

无论是竞选团队安排策略,金融行业鉴别风险,还是医疗机构推行新药,在大数据变现为21世纪货币的过程中,都对信息化的深度与广度提出了更高的要求.对此,九次方大数据创始人王叁寿表示,大数据是突破瓶颈的关键钥匙,是传统信息化厂商的掘墓人. 传统信息化,在一定程度上打破了地域.组织.技术的界限,强化了资源协作与共享,构建出了更具灵活性的新体系.对于亟待转型升级的各个行业而言,如何能将信息化与传统业务进行深度融合,以技术创新带动行业新发展,成为DT时代的制胜关键. 然而,技术的加速度使得产业出现代际革命的现

大数据来袭 传统数据库的Hadoop梦想

大数据时代已经来临,并悄悄的影响着我们的生活.根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布.Facebook和其他所有互联网网站.互联网应用,已经逐渐变成了整个数据采集.分析.处理.增值的数据架构. 在中国,社交网络同样如火如荼.新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博.每位用户的平均在线时长为60分钟,活跃用户中有60%通过

DBA观点分享:大数据对传统数据库的影响

文章讲的是DBA观点分享:大数据对传统数据库的影响,大数据趋势在2012年开始变得明显,Hadoop.NoSQL等技术的兴起,令传统数据库稳固的江山开始动摇."以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场. 近日,ITPUB论坛以<大数据时代下传统数据库的改变有哪些?http://www.itpub.net/thread-1791263-1-1.html>为题发起讨论,话题围绕传统数据库为了应对大数据时代做出何种改变.传

大数据or传统数据,只需找到合适工具

在近期 举行的Enterprise Data World大会上,参会者 纷纷对"大数据"这一话题发表了自己的看法.来自InfoAdvisors的首席咨询师Karen Lopez作为其中一员, 认为大数据并不像看上去 那么靠谱. Lopez说:"从最基本的问题来说,到底什么是大数据?我相信根本就没有人能真正讲清楚."Lopez拿维基百科上的解释举例,上面说大数据是指那些数据量增长到很大以至于难以处理的数据集.Lopez说:"这到底算是哪门子定义?"

大数据与传统数据库是互补关系

文章讲的是大数据与传统数据库是互补关系,在全球大数据生态圈中,Hadoop堪称其中最为核心的技术.     由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera.MapR.Hortonworks等.这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售.     在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元.而要

大数据应用还处于早期——专访Hadoop之父Doug Cutting

谈到大数据,对技术有点了解的人很容易想到Hadoop.的确,尽管Hadoop只是一个对数据进行存储和分析处理的平台,但仍有不少人把Hadoop和大数据对等起来.实际上,Hadoop的确在很大程度上扮演着大数据代言人的角色,它应用的广度和深度也基本反映了大数据市场的繁荣程度. 从有Hadoop之父之称的Doug Cutting推出Hadoop算起,这个分布式大规模数据处理平台面市已经超过10年历史.这些年来,Hadoop自身在不断进步,市场上也诞生了一批像Cloudera.MapR.Hortonw

清华讲坛:国双大数据助力传统媒体融合转型

本文讲的是 : 清华讲坛:国双大数据助力传统媒体融合转型   ,   新媒体时代来临,微信.微博等社交平台方兴未艾,人人都成为信息的主体和传播渠道,传统媒体的内容垄断地位及收费模式面临严峻挑战,纷纷寻求借助新技术,实现成功转型.在8月21日清华-青岛数据科学研究院&大数据产业联合会举办的"大数据驱动下的媒体业转型讲座上",国双科技新媒体事业部总经理陈杰从技术应用的角度出发对传统媒体如何实现转型.赢得更多用户进行了深度剖析,娓娓道来国双为央视网.芒果TV等电视台及网络电视台提供服

大数据时代为什么都在谈Hadoop?

最近知乎上有这样一个问题"为什么很多公司都采用Hadoop方案处理大数据业务",引来很多回答,笔者整理如下,其观点或有时而可商,欢迎讨论. 先说一说什么样的公司比较倾向于使用Hadoop.有人认为,使用Hadoop的前提是自身有没有收集并分析数据的需要,并且数据量是否一直在增长并且不可丢弃. 目前看起来,此类数据多数为日志数据,分析用户习惯,或者就是传感器之类的数据,分析环境等监控内容的变化规律.也有很多公司不使用Hadoop,比如多 数从事政府行业或者部分企业系统开发的公司,他们对系

大数据和传统BI

对于传统企业内部,更多的应该是使用了大数据技术的传统BI平台,或者是融合了传统BI+大数据的混合平台,而不能单纯说是大数据平台.在谈大数据平台的时候,一味去否定传统BI是不合适的. 在没有和互联网打通的传统企业内部,更多接触的仍然是结构化数据,优先要解决的是围绕企业核心价值链的数据建模和企业战略,各业务域KPI体系的建立,决策支持和分析这些内容.在整个数据建模和分析过程中,还要考虑去解决数据不一致性,重复等问题,建立数据管控和治理体系.36大数据(http://www.36dsj.com/) 传