本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.2节,作者 孟小峰,更多章节内容可以访问“华章计算机”公众号查看
1.2 大数据的演变过程
从数据库(Database,DB)到大数据(Big Data,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面都会带来革命性变化。
如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是一个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:
1)数据规模:“池塘”和“大海”最明显的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large DataBase),与“大海”XLDB(Extremely Large DataBase)相比仍旧偏小。
“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB甚至是TB、PB为基本处理单位。
2)数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。
3)模式(schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代在很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。
4)处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。
5)处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的“One Size Fits All”。但是在“大海”中,不存在一种渔网能够捕获所有鱼类的情况,也就是所谓的“No Size Fits All”。
从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工程(data engineering)的处理方式,大数据时代的数据已不仅仅是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray博士观察并总结指出,人类自古以来,在科学研究上先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,这三种传统范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的范式来指导新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研究方式,他称之为科学研究的“第四种范式”(The Fourth Paradigm)[2]。
四种范式的比较如表1-1所示。第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的捕鱼方式的转变,在大数据时代,数据不再仅仅是捕捞的对象,而应当转变成一种基础资源,来协同解决其他诸多领域的问题。例如,计算社会科学(computational social science)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(data print),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。Duncan J. Watts在《Nature》杂志上的文章“A twenty-f?irst century science”也指出借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。
表1-1 科学研究上发现的四种范式
科学范式 出现时间 主要方法
实验 数千年前 通过观察来描述自然现象
理论 近百年 建立模型、概论
计算 近几十年 对复杂现象利用计算机进行仿真模拟
数据探索
(data exploration) 目前 仪器或仿真器产生数据,计算机软件将这些数据进行处理,而后存储于不同地方,最后要将这些数据高效地汇集、整理、统计、分析、共享和归档,并加以再利用