大数据来袭 传统数据库的Hadoop梦想

  大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。

  在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为60分钟,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。

  社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每48小时产生的数据量相当于人类文明到 2003年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。

  除此之外,传统企业同样面临大数据的挑战。据Gartner预测,企业数据将在五年内增加800%,其中80%结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop逐渐成为全球IT产业的宠儿。

  Hadoop是一个100%的分布式文件系统,被称为继Linux以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。

  传统数据库的Hadoop梦想

  与Hadoop不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据IDC统计,2011年全球数据总量已经达到了1.8ZB,2020年将达到35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词Hadoop。

  Hadoop分布式系统基础架构,主要由HDFShttp://xilele.cctv.com/pinpai/dongtai/yiliao/491659.htm、MapReduce和HBase组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop 不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而Hadoop擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。 Hadoop对数据库厂商而言,既是,也是机遇,如果能够让Hadoop为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持Hadoop的数据库进行盘点,并对其大数据策略简要分析。

  Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的Oracle数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和RDBMS平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到Hadoop在大数据处理方面的潜力,推出以Hadoop为基础的大数据机(Big Data Application),其中包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器以及开源R,并与Cloudera公司合作提供Apache Hadoop系列软件。

  IBM DB2:IBM是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM中国研究院院士、首席技术官王云曾在2012中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于OLTP功能,能够数据准确记录;而大数据是新的应用,是OLAP的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括Hadoop和Stream Computing两个组件,通过新的径解决大数据分析处理。

  SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软SQL Server 2012引入Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在Windows Azure平台和Windows Server上提供 Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与Hadoop是一个强强组合,能够把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。

  SAP:SAP公司是全球知名的企业管理软件供应商,自2010年SAP收购Sybase以来,开始成为数据库界一颗冉冉升起的新星。SAP将数据库技术作为2012年重点发展领域之一,形成了以SAP HANA为核心,以SAP Sybase数据库为基础的大数据战略。在这一战略中,特别重要的一环就是Hadoop。通过SAP HANA和SAP Sybase IQ与Hadoop的集成,增强对Hadoop等大数据源的获取能力,并提供深度集成的预处理基础架构。

  EMC Greenplum:EMC是全球知名信息存储服务提供商,与SAP相似,在2010年收购了Greenplum,开始发展其数据库市场。目前 Greenplum的数据库产品包括传统的Greenplum Database和Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入Greenplum中进行存储和分析。EMC在中国的市场战略,以“大数据推动业务转型”为核心,EMC数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC之所以会推出Greenplum Hadoop版本,是对Hadoop的未来发展前景充满信心。

  除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入 Hadoop阵营,这其中还包括Teradata、Informatica、Pentaho、Talend等数据库、数据仓库及商业智能服务提供商。此外,Hadoop还是NoSQL数据库的主要架构之一。

时间: 2024-08-01 12:31:42

大数据来袭 传统数据库的Hadoop梦想的相关文章

大数据来袭 传统IT厂商紧握Hadoop机遇

本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活.根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布.Facebook和其他所有互联网网站.互联网应用,已经逐渐变成了整个数据采集.分析.处理.增值的数据架构. 在中国,社交网络同样如火如荼.新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博.

DBA观点分享:大数据对传统数据库的影响

文章讲的是DBA观点分享:大数据对传统数据库的影响,大数据趋势在2012年开始变得明显,Hadoop.NoSQL等技术的兴起,令传统数据库稳固的江山开始动摇."以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场. 近日,ITPUB论坛以<大数据时代下传统数据库的改变有哪些?http://www.itpub.net/thread-1791263-1-1.html>为题发起讨论,话题围绕传统数据库为了应对大数据时代做出何种改变.传

大数据与传统数据库是互补关系

文章讲的是大数据与传统数据库是互补关系,在全球大数据生态圈中,Hadoop堪称其中最为核心的技术.     由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera.MapR.Hortonworks等.这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售.     在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元.而要

微软TechEd:大数据与传统数据库的对比

[IT168 现场报道]2012年12月6日消息,TechEd 2012 微软技术大会进入最后一天的议程.作为微软亚太地区顶级技术盛会,微软技术大会已经在中国连续第19年成功举办.本届微软技术大会携众多明星产品,组成强大的新技术阵容璀璨亮相,揭开全新的技术纪元. TechEd集合世界各地的开发人员和IT专业人士,提供技术分享,社区互动和产品的评估资源的最大规模的技术盛会,有数千位微软专业技术人员.合作伙伴.行业权威.专业人士出席,几百个技术讲座.研讨.动手实验室和活动,帮助您了解现有最新技术的相

Sybase中国技术总监卢东明:大数据时代的数据库挑战

日前,在Sybase IQ 15.4媒体活动上,CSDN联合几家技术媒体共同采访了Sybase中国技术总监卢东明.卢东明就大数据给传统数据库厂商的冲击.列式和行式数据库的比较.以及其他热点话题分享了看法. Sybase中国技术总监 卢东明 卢东明首先简单介绍了SAP旗下的5大数据库产品: Sybase Adaptive Server Enterprise简称ASE(行式数据库) Sybase IQ(列式数据库) Sybase SQL Anywhere(小型嵌入式数据库) HANA(完全基于内存.

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. 大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据

大数据or传统数据,只需找到合适工具

在近期 举行的Enterprise Data World大会上,参会者 纷纷对"大数据"这一话题发表了自己的看法.来自InfoAdvisors的首席咨询师Karen Lopez作为其中一员, 认为大数据并不像看上去 那么靠谱. Lopez说:"从最基本的问题来说,到底什么是大数据?我相信根本就没有人能真正讲清楚."Lopez拿维基百科上的解释举例,上面说大数据是指那些数据量增长到很大以至于难以处理的数据集.Lopez说:"这到底算是哪门子定义?"

大数据和传统BI

对于传统企业内部,更多的应该是使用了大数据技术的传统BI平台,或者是融合了传统BI+大数据的混合平台,而不能单纯说是大数据平台.在谈大数据平台的时候,一味去否定传统BI是不合适的. 在没有和互联网打通的传统企业内部,更多接触的仍然是结构化数据,优先要解决的是围绕企业核心价值链的数据建模和企业战略,各业务域KPI体系的建立,决策支持和分析这些内容.在整个数据建模和分析过程中,还要考虑去解决数据不一致性,重复等问题,建立数据管控和治理体系.36大数据(http://www.36dsj.com/) 传