怎样才算大数据?(之一)

 从谷歌趋势可以看到,大数据作为一个buzzword,是从2011年声名鹊起的。对这波趋势,中国跟进并不慢,旋即2012年被称作中国的大数据元年。其中两本书功不可没:前有涂子沛先生的《大数据》,从美国政府的数据信仰、政策和实践娓娓道来,让中国政坛和知识精英接受了一次思维洗礼,汪洋副总理离任广东前一系列开风气之先的大数据举措,当属此书之功;年末维克托.迈尔.舍恩伯格先生的《大数据时代》,则是系统论述大数据理念的奠基之作。如果说前者着力于发蒙—大数据可以做什么,后者则注重解惑—大数据该怎么做。

 

中国做事大气魄。原著为英文的《大数据时代》美国读者尚在翘首以盼,中文版在2012年末就摆上了国内读者的书架,原来是乘舍恩伯格先生参加云世界大会不失时机宣传。在年末年初的喧闹中,大数据产业园、大数据日、大数据专委会、大数据专业、大数据实验室和各种大数据峰会接踵而来。物联网和大数据、云计算和大数据彼此抱团取暖,来抵消决策者对层出不穷新概念的审美疲劳。其实,大数据还只是在民间热。相比起物联网和云计算,它在国家最高层面上获得的关注和实质支持还颇有不如,甚至美国政府都走在了前面:后者在2012年3月发布《大数据研究和发展倡议》,6个部门投资超过两亿美金推动相关研究。两亿美金对于工信部和科技部来说是毛毛雨,按兵不动是什么原因?

 

根据在下与工信部官员和智库的一些交流,我感觉决策者还存在很多疑惑:大数据究竟是什么新玩意儿?与以前的数据库、数据仓库、数据挖掘和商业智能有什么区别?市场有多大?中国应该重点发展什么?竞争优势和劣势在哪里?每每官员们在台上指点江山、大谈大数据战略云云(据在下目测,基本内容都来自2011年麦肯锡的《大数据:创新、竞争和生产力的下一个前沿》和2012年达沃斯的《大数据,大影响:全球发展的新可能》),台下一见专家就虚心请教大数据新在什么地方。

在下不揣浅陋,打算把对大数据的认识写下来,对大数据做一个深度的、非主流甚至是另类的解读。

 

当然从基本概念说起。大数据4个V:Volume(体量大),Velocity(快速化),Variety(类型杂),Value(价值大)。关于前3个V,很多人以讹传讹说是IBM首创的,其实是METAGroup(现为Gartner的一部分)的一个分析师Doug Laney早在2001年提出的(这位老兄专门写了一个博文吐槽他人冒功)。当然,IBM也不是全无贡献,它去掉了Value,加上Veracity(真实性),也算是自成一派。而其它公司只能暗恨字典里V字头的单词太少。

 

今天就从体量大说起。

大数据有多大?—业界巨擘自我实现的预言?

IDC对于每年创建和复制的信息之体量做了预测:2011年1.8ZB(ZB有多大,可以戳这里),2012年2.8ZB,按照每两年翻一番(摩尔定律是一切类似规律的滥觞)的速度,2020年达到40ZB。这个数据怎么算出来的?IDC秘而不宣。这个研究是在EMC赞助下的,EMC笑而不语。如果说对静态数据(data at rest)体量的预测有助于存储的销售,动态数据(data in motion)的体量无疑跟网络需求绑在一起。于是Cisco一个类似的预测说道:2016年数据移动的总量达到1.3ZB。其实所有这些数据加起来都不如谷歌Eric Schmidt的说法有感染力:从人类文明曙光到2003年数以万计的时间长河里人类一共产生了5EB(天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据(这个有可能是从IDC的数据里推知的)。

这是不是业界巨擘们自我实现的预言?我觉得是。克里斯.安德森2008年在《连线》做了个专题“拍字节时代(The Petabyte Age)”,显然作为数字时代预言家的老安胆子不够大。

数据总量的增长主要归功于非结构化数据的增长。广义的非结构化数据也包括了半结构化和多结构化数据,目前普遍被认为占到总量的85%以上,而且增速比结构化数据快得多(有说法是快10-50倍)。低信息密度的非结构化数据是大数据的一大挑战,以后在Variety这一专题中会细细阐述。挑战就是机会,业界巨擘们创造了很多新的概念来迎接非结构化数据,NoSQL数据库是其中最亮丽的一个。对此,数据库界的老法师Mike Stonebraker对此耿耿于怀,不惜力推“血统”更纯正的NewSQL数据库;Sybase的CTO Irfan Khan甚至说大数据(这个新概念)根本就是个大谎言,声称他们的数据仓库工具早就能分析包括非结构化数据在内的大数据。

这类总量数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说,没有太大意义。他们更关心的是个体行业、企业甚至个人数据的状况。

麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据大小一般来说在10-100TB,因此10-100TB通常成为大数据的门槛。无独有偶,IDC在给大数据做定义时也把阈值设在100TB(它同时也给出了velocity和variety的量化指标,以后再表)。其实这种方法未必科学,对于非结构化数据的存储来说,本来就跟数据库无关,而且传统文件系统能够处理的数据量往往受限于元数据而非原始数据大小,因此能处理的上限要比数据库要高。不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。

原文发布时间为:2013-11-08


时间: 2024-11-05 18:56:45

怎样才算大数据?(之一)的相关文章

怎样才算大数据(之三)

天下武功,唯快不破.这句话滥觞于<拳经>,经过雷军等人的演绎,几乎成了互联网时代商业致胜的不二法则.那么,大数据的快又从何说起呢? 话说道哥(Doug Laney)当年创立三V经,背景是电子商务:Velocity衡量的是用户"交互点"(Point-of-Interaction),如网站响应速度.订单完成速度.产品和服务的交付速度等.假设交互点是一个黑盒子,一边吸入数据,经过黑盒子处理后,在另一边流出价值,那Velocity指的是吸入.处理和产生价值的快速度.随后"

怎样才算大数据?(之二)

偌大的数据都在哪里?--大数据创业者的寻宝图 大数据荡漾了无数创业者和技术男的春心.而它作为一个典型的2B市场,创业者们面对的是什么样的B呢?哪些行业会拥有大数据呢?大数据通常分为四类:科研数据,互联网数据,企业数据,和感知数据. 科研数据属于大数据时代前很久就存在的史前生物,可能来自生物工程.天文望远镜或粒子对撞机,不一而足.这些数据存在于封闭系统中,玩家都是传统上做高性能计算(HPC)的企业,这里不再展开.值得一提的是,常常听到这些企业愤愤不平地说很多大数据技术是他们发明的,大数据只是某些人

什么才是大数据的真面目?

这个时代,在混互联网的群体中,无论是技术还是产品还是运营还是商务, "大数据""云存储""云计算"这几个字绝对占据了你视觉和听觉的首位.但是,什么才是大数据?大数据是干什么用的?什么才是它的真面目?这需要你冷静看待. 其实大数据不是一门玄乎的技术,而是只是一项再普通不过的技能,一种从数据中去发现价值挖掘价值的技能. 一.大数据的四大误区 1.误区一 大数据就是数据大 "光大是不够的!"当我掷地有声用这句话开场时,正好一个妹子推

你造吗?这才是大数据项目成功的7大秘密

文章讲的是你造吗,这才是大数据项目成功的7大秘密,大数据项目的成功有哪些法宝?又有哪些陷阱会导致大数据项目的失败?本文中的三位专家将对此进行详解. 如今,许多企业都理解了大数据的构成,但是要取得大数据项目的成功则是另一回事.Gartner公司的分析师,Doug Laney. Forrester公司分析师Mike Gualtieri.International Institute for Analytics的高级研究学者,Robert Morison 都是大数据领域的专家,他们对于企业如何使用大数

坚持以人为本才是大数据的未来

以人为本是大数据的未来 随着互联网的发展,大数据.云计算以及智能化的广泛应用,大数据等这些"高.大.上"和虚无缥缈的"云"端词语已经开始从安防等专业领域开始走向了千家万户.只是很多消费者并不知道大数据和云计算这个概念而已.但是实际上大数据和我们的生活已经如影随形.网上购物消费.出门打车等大数据已经广泛的影响我们的生活并改变这我们的生活方式. 特别是智能手机和无线wifi的兴起,让大数据如虎添翼.每个人都心甘情愿地成为大数据的附庸,而且毫无怨言,甚至无声无息,并乐此不

App才是大数据的未来

本文的作者是Justin LaFayette,他将在稳重为我们详细解读他眼中的大数据的未来. 在大数据被各种媒体热炒的同时,真相被蒙蔽了:App才是大数据的未来.过去基础架构和平台一直是被捧吹的对象,但它们只提供了承载大数据的环境,无法利用大数据创造长期价值,所以它们并不是大数据的未来核心. 在市场上它需要公司提供大数据App,能够洞察特定市场版块或业务流程.及时反馈数据.到达尽可能多的调差对象.因为很少有熟练的大数据从业者可以为每个组织(公司)提供非常专业的数据分析服务. 而且,近期不仅仅是媒

被骗好多年:原来这才是大数据

大数据的本质目的就是为了解决大规模生产与单个客户的个体需求之间的矛盾. 小镇水果店也用"大数据" 此时此刻,阳光明媚,在离上海市区20公里的光明镇,有一家街边的水果店,叫光明水果店.店门口一只狗懒洋洋躺着.此时村头的王老太来了,说要买橘子.张店主说:您老今天咋想到吃橘子了?老太笑着答:孙子带媳妇从城里回来看俺.老张立马说:您看俺家这新疆梨不错,现在姑娘都爱吃.又说,姑娘都爱吃这草莓,还美容哩. 最后,节省的老太,花了五倍于原计划的钱,买了三种水果. 老张没念过大学,没看过任何关于大数据

大数据应用之双色球算奖平台总体设计数据规模估算篇

作者:张子良 版权所有,转载请注明出处 引子:什么才算大数据? 自从写了上一篇<大数据应用之双色球算奖平台总体设计大纲篇一>,受到许多园友的关注和指导,在此表示感谢,尤其是园友个人知识管理给出的一个评论,让我深思,原文如下"双色球算奖这么简单的活,也称大数据.先生:不是数据多,叫大数据.双色球算奖,用Oracle数据库的索引,1分钟内就算完.关键是人家不想这么快".话不太好听,尤其是称我为先生那句,但却发人深思,是啊:到底什么是大数据呢?选择双色球算奖作为大数据应用的切入点

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说