作为研究大数据的资深专家,中关村大数据产业联盟秘书长、中国计算机学会大数据专委会委员赵国栋在大数据领域著述颇丰,他的著作《大数据时代的历史机遇》在行业内广为流传。
关于大数据的定义很多,足以让人找不到北,亚马逊的科学家给出的定义是非常言简意赅的一种,“大数据是任何超过了一台计算机处理能力的数据量”。
在赵国栋看来,大数据最大的优势在于减轻人们对于未来的焦虑感。他用带有几分哲理意味的语言这样描述道,“未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让我们看到解决未来预测问题的一丝曙光”。
“任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是‘人似秋鸿有来信,事如春梦了无痕’。在互联网世界则完全不同,是‘处处行迹处处痕’。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的‘请求’加‘响应’机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的力量所在。”赵国栋说。
为了说明上述观点,赵国栋引用了一则IBM公司的广告语,“过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前”。
站在历史的角度来看,人类所拥有的数据正在呈现爆发式增长态势:
根据国际数据公司(IDC)的《数据宇宙》报告显示:2008年全球数据量为0.5ZB,2010年为1.2ZB,人类正式进入ZB时代。更为惊人的是,2020年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍。
ZB是个什么概念?1ZB=1024EB。一本《红楼梦》共有87万字(含标点),每个汉字占两个字节,即1 个汉字=2B,由此计算1EB约等于6626亿部《红楼梦》。美国国会图书馆是美国四个官方图书馆之一,也是全球最重要的图书馆之一,截至2011年4月,藏书约为1.5亿册,收录数据235TB,1EB约等于4462个美国国会图书馆的数据存储量。
拥有数据越多,并不意味着万事大吉。大数据时代依然可能面临发展不均衡和不公平的问题。赵国栋将其概括为数据割据、数据孤岛和数据质量三大问题。
“因为制度漏洞、地方保护主义、部门利益等人为因素造成数据分散的现象,可以称之为数据割据。政府部门之间各自将数据看作自己的资产,而不是作为社会资源和公共资源来使用,这主要是由于部门之间存在壁垒和各自的利益,规章制度、法律法规不完善造成的。因为技术差距、历史遗留问题等形成的数据分散现象,称之为数据孤岛。数据质量的好坏,直接影响数据资产的价值。数据质量主要包括数据的真实性、完整性、一致性。这些问题的解决非一日之功,需要技术、制度、文化等方方面面的努力。”赵国栋说。
本文转自d1net(转载)