云计算遭遇大数据 碰撞出技术革命

前两天有人在微博发问,用什么样的方式讲述大数据和云计算才能非专业人士听的更清楚,其实关于大数据的案例有很多,商业智能分析也多次提到过关于数据挖掘的价值和意义,只不过在今天看数据比以前还多而已,大数据并不可怕,可怕的是他的实时分析能力,会让缺点和真相赤裸裸暴露在人们面前,那么当云计算遭遇大数据一股脑向企业涌进的时候,企业能否驾驭呢?

所谓的大数据主要涵盖3V面向,分别是处理时效(Velocity)、数据格式(Variety)与数据量(Volume);所以大数据并非单一技术,而是众多技术项目的集合体,它们的共同目的,都是在一定时间内处理完大量的结构化、半结构化或非结构化数据。唯有驾驭个中关键技术,方能分析处理大数据,建立商业应用价值。

继续诉说Wal-Mart比父亲更早知道女儿怀孕的故事。2012年初的某一天,美国明尼苏达州有一名父亲,怒气冲冲跑到卖场并质问主管,为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?此举是否鼓励未成年女生怀孕?

然而后来事实证明,这名父亲的女儿果真怀孕,卖场并非凭空乱洒广告邮件。人们不禁好奇,Wal-Mart何以如此神通广大,竟然能够隔空挖掘真相?答案就在于大数据的实时分析,包括这名女孩搜寻商品的关键词词,以及在社交网站所显露的行为轨迹,其实都已蕴藏丰富价值,足以表明她怀孕的事实,而接下来的时间,她最需要采购哪些商品,答案便呼之欲出。

由此可见,倘若善用巨量资料实时性分析,这些看似枯燥琐碎的资料,立即就能蜕变为饶富价值的资产,造就无穷无尽的商机。它可以帮助精品服饰业者,快速洞察顾客的喜好变化,立即形成最佳的生产销售决策,继而创造源源不断的营收增长动能;它可以帮助投信业者,从Tweets中分析大众的情绪变化,藉以提高股市行情预测的精准度,创造远远优于同业的基金投资报酬率。

也难怪各方都对巨量资料趋之若鹜,譬如美国欧巴马政府即在2012年3月间做成决定,此后将投入高达2亿美元的研究与开发经费,藉以改善巨量资料时代中,所需之开发、搜集、储存、管理、分享与分析工具与技术,以期利用这些技术加速科学及工程上的发现脚步、强化国家安全,并改善相关的教育及学习模式。

大数据为何神乎其神

的确,虽然这些神乎其技的大数据应用,无不让企业心生向往,然而多数IT主管却对于个中技术一半未解,导致影响所属企业商业价值的产出,殊为可惜。

究竟企业如何基于大数据的分析与应用需求,提高其技术整备度?知名研究机构Gartner在其发表的“Hype Cycle for Big Data”当中所呈现的巨量资料优先矩阵(Priority Matrix for Big Data),即已针对众多技术今后的兴衰浮沉,进行大致的预测;如此一来,哪些技术被定位为“革命性(Transformational)”,亟需密切留意,哪些技术处于高度(High)发展的轨道,值得善加运用,而哪些技术大抵维持中度(Moderate)发展格局,未来大起的机会不高,若要为此挹注大量投资,恐需再三思考,企业IT人员心中即有基本的谱图与脉络。

根据Gartner预测,从现在起的两年之内,率先达到革命性等级的技术,便是字段式数据库(Column Store-DBMS),将呈现高度发展者,则为预测分析技术,至于社交媒体监控、Web分析等技术,发展状况持平。如此观之,举凡字段式数据库、预测分析,将会是企业亟需优先布局的标的。

探究字段式数据库之所以抢得头香,其实并不难理解,因为对于数据撷取、保存、使用、分享与分析等用途而言,数据库系统皆堪称是最关键的载体,因此其面对大数据的读写效率、及近实时(Near Real-Time)运算能力的强弱,肯定需要审慎考虑;在此情况下,传统以Row为索引存取基础的数据库,效能显然不彰,无法承担因大数据而衍生的大量工作负载(Work Load),倘若不为此做改变,后头的进阶型分析应用,可说连想都不必再想了。

当然,随着Hadoop大行其道,连带使得诸如BigTable、HBase或Cassandra等Key-Value数据库开始抬头,这些可被统称为“NoSQL”的数据库,不论是Key-Value Database、In-memory Database、Graph Database或Document Database,都有别传统关系数据库结构,似乎都更将贴近大数据的处理需求,既然如此,何不直接采用NoSQL数据库、而非字段式数据库?

事实上,NoSQL另一层意涵为“Not Only SQL”,旨在补现有SQL之不足,而非取代SQL,企业宜先从数据库I/O需求、Schema Free需求、单一数据表的储存需求…等不同面向,彻底检视其于处理大数据的过程中,究竟可能面临哪些难题,而这些难题,哪些是SQL可以解决的、哪些又是SQL所不能解决的,莫要为了追求时髦而时髦;如此看来,字段式数据库被企业所倚赖的空间,确实十分宽广,最起码,它对于数据的读取效能,肯定比NoSQL数据库强大许多。

云端运算与内存数据库 革命性技术值得关注

被Gartner点名为革命性技术的“第二梯队”(注:预估2~5年发酵)者,则包含了两项,分别是云端运算、内存数据库系统(In-Memory DBMS)。

至于同样落在2~5年区间的高度发展技术,项目就相当繁多,包括先进的诈欺侦测暨分析技术、以云端为基础的网格运算、数据科学家、内存分析(In-Memory Analytics)、内存数据网格(In-Memory Data Grids)、政府公开数据(Open Government Data)、预测模型解决方案(Predictive Modeling Solutions)、社交分析(Social Analytics)、社交内容(Social Content),以及文本金分析(Text Analytics)。

云端技术对于大数据处理与分析的重要性,着实无庸置疑。先从私有云角度来看,要想透过不管是MPI或MapReduce进行大数据的分布式计算,都需奠基于计算、储存或网络等资源的灵活调度,值此时刻,若舍弃云端,似乎就唯有斥巨资部署超级计算机一途了。

其次谈到公有云。尽管各行各业都可因大数据分析而获益,但多数应用场域,其实并非无时无刻都需要做分析,使用频率甚至长达每季一次、或每半年一次;在此前提下,企业若仅为了并非实时性的巨量资料分析,因而投注大量人力、物力与时间等成本建构Hadoop环境,投资报酬率似乎不太划算,的确值得商榷。

此时此刻,企业若能以弹性付费的方式,向公有云服务供货商,租赁大数据分析所需之计算资源,且能比照内部On-Premise管理规则进行相关设定,实在称得上是美事一桩。以微软为例,即在Windows Azure公有云端平台上提供Hadoop租用服务,让企业无需投资布建大量服务器及数据库,便可随需推动大数据运算任务,甚至标榜能将 Windows与SQL Server方便管理的特性带到Hadoop环境,便是相当典型的云端Big Data服务。

至于内存数据库,即是将关系数据库、甚至是字段式数据库,整个置于内存之中,这般做法的好处是,以往最让人诟病的磁盘I/O瓶颈,即可声应而破,从而大幅提振效能、缩短数据库作业的响应时间;身处现今凡事讲究超速的时代,企业若能更快获致商业运算结果,也意谓其获得胜利的可能性愈大。

所以大家不难发现,当内存数据库被Gartner预期会在2~5年成为革命性技术的同时,“In-Memory”这个字眼仍在高度发展技术象限中反复出现,包括内存分析、内存数据网格等,也就充分凸显出,“效能”对于大数据处理,实在太过重要,而效能表现的强弱,甚至对于最终商业应用的绩效影响至巨。

另值得一提的,在Gartner点名会在2~5年转为“中度发展”的技术名单中,其间不乏是近来非常热门的项目,譬如MapReduce、NoSQL数据库、数据库SaaS(Database Software as a Service;dbSaaS),此一看似将由热转冷的发展趋势,亦值得企业保持关注。

(责任编辑:施柏鹏)

时间: 2024-10-23 12:39:15

云计算遭遇大数据 碰撞出技术革命的相关文章

云计算遭遇大数据:数据之道 智取未来

据分析,到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍.而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB.如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里). 在信息化的建设过程中,众所周知,数据可以分为3种:结构化数据.半结构化数据和非结构化数据.其中,85%的数据属于企业业务过程中产生的文档等非结构化数据. 面对着海量的数据,人们不禁感叹,大数据时代已经到来,

档案管理遭遇云计算和大数据

档案管理遭遇云计算和大数据 梁启敏 刘晖 刘怡君 应用云计算和大数据的思想方法,对档案管理带来的历史性变革进行分析,档案云的建设与大数据的结合,催生的爆炸性数据.阐述在伴随云计算和大数据的思想大潮中,给档案管理带来的影响以及挑战,档案管理在大背景下会发生的蜕变. 档案管理遭遇云计算和大数据

[阿里研究院]“互联网+”的动力:云计算、大数据与新分工网络

"互联网+"的深刻内涵 普适计算之父马克·韦泽说:最高深的技术是那些令人无法察觉的技术,这些技术不停地把它们自己编织进日常生活,直到你无从发现为止.而互联网正是这样的技术,它正潜移默化地渗透到我们的生活中来.所谓"互联网+"就是指,以互联网为主的一整套信息技术(包括移动互联网.云计算.大数据技术等)在经济.社会生活各部门的扩散.应用过程.互联网作为一种通用目的技术(General Purpose Technology),和100年前的电力技术,200年前的蒸汽机技术

王坚:云计算和大数据,你们都理解错了

王坚,阿里巴巴最富争议性的人物之一,爱者极爱,恨者极恨. 5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊了云时代的创业,当然少不了王坚聊一聊他对云计算的看法. 当天,青龙老贼发了一段王坚的部分观点,遭遇了他开通微信公众号以来最强烈的退粉,也激起了圈内人的各种讨论,这就是王坚的"影响力". 我把王坚的分享做了个第一人称详细版的梳理,里面涉及了阿里云的定位.对大数据的反思.对APP创新的不看好,

谁掌握云计算和大数据,谁就掌控未来

河南 互联网用户全国排第六,中部排第一 昨日,河南省首届互联网大会在郑州国际会展中心隆重 举行.大会由河南省通信管理局.省互联网协会主办,主题为"信息编织美好中原经济区,网络构筑智慧郑州航空港". 昨日的会议还发布了<河南省互联发展状况报告>.截至2013年7月底,河南省互联网用户总数达到5248万户,全国排名第六位,中部排名第一位.备案网站总数15万个,全国排名第八位,中部排名第一位.互联网呈现出快速发展趋势,用户数和业务量增长迅猛,互联网基础设施建设加快推进,应用日趋广

云计算、大数据能为反恐做什么?

文章讲的是云计算.大数据能为反恐做什么,11月25日召开的国家反恐怖工作领导小组专题会议上,公安部部长郭声琨提出,要运用大数据.云计算技术打击恐怖行为."从海量的人流.物流.信息流.资金流中及时发现涉恐线索,做到预警在先.预防在前.敌动我知.先发制敌." 大数据如何反恐呢?全球各国的成功经验值得借鉴.8月底,美国国防部长卡特(Ash Carter)赴硅谷招募顶尖科技人才.近年来的信息大爆炸使得五角大楼不得不将目光聚焦高科技硅谷,以打击反恐.美国中央情报局的CTO Gus Hunt则表示

云计算?大数据?SaaS的回归

当云计算如火如荼的肆意展现时代风采的时候,大数据已经悄然的出现在这个巨大的舞台中央.对于云计算来说,大数据在云平台上尽情展现那风华绝代的容姿,为客户带去大数据深埋的价值,将是云计算送给所有云时代用户们最精彩的表演. 在大数据的时代里,用户的体验与诉求已经远远超过了科研的发展,但是用户的这些需求却依然被不断地实现.在云计算.大数据的时代,那些科幻片中的http://www.aliyun.com/zixun/aggregation/10341.html">统计分析能力已经具备了雏形,而这最大的

快速理解云计算与大数据之间的关系

如今一家优秀的互联网公司肯定的是拥有数据运营的公司,反之,不能从数据中获取利益的互联网公司的就不是云计算应用者.互联网.云计算以及大数据,如今成了三个密不可分的词汇.更进一步,挖掘数据价值很多企业都会做,但如果不能用最低成本得到数据价值,企业同样活不下去.把数据以低廉成本变成财富的东西就是云计算.从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分.大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构. 那么,云计算是如何帮助大数据将一堆堆杂乱信息转化成经济效益的呢? 首先,

中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革

 5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,国家自然基金委副主任.中国工程院院士.中国大数据专家委员会副主任委员高文在全体大会上带来了"大数据分析与智慧城市建设"的主题分享. 高文表示,"现在云计算.大数据也好,把数据挖掘出来,实际上会对我们整个的社会也好.城市也好带来很多好处.所以把大数据用好了,实际上对整个城市的生活,会带来很多变化." 以下是高文演讲实录:(以下内容根据现场速记整理,未经发言嘉宾确认,仅供参考,谢绝转载.