1.3TB级挖掘是现实不是科幻
20世纪末,100万词的数据集被认为很大。20世纪90年代我在读研究生时(是的,我有那么老)在Greek New Testament做了一年程序员。大约20万单词的分析就大到不能放在主机内存里而不得不把结果缓存在磁带上,因此必须要安装磁带机。
Barbara Friberg依据该结果写成Analytical Greek New Testament一书并公开出版(可以从亚马逊网站上订购)。我是当时在明尼苏达大学完成该项目的3名程序员之一。
现在在数T信息上进行数据挖掘已经司空见惯。Google拥有5PB(即5000TB)的Web数据。2006年Google公开了一份1万亿单词的数据供学术界使用。国家安全局拥有数万亿次电话记录。一个搜集2亿美国成人信息(信用卡交易、电话记录、医疗记录、车辆登记等)的Acxion公司已经积累了超过1PB的数据。
为了让人们深入理解1PB信息到底有多大,《无处可藏》(No Place to Hide)的作者格伦·格林沃尔德(Robert O’ Harrow Jr.)指出,这相当于将钦定版《圣经》(King James Bible)堆积成80000公里厚。我常常驾车往返于新墨西哥和维吉尼亚,大约有3200公里的距离。当我试图想象将圣经堆满整条道路时,才知道1PB几乎是个天文数字。
整个国会图书馆的文本大约有20TB,可以将这些数据保存在价值高昂的硬盘上!与此形成鲜明对照的是,沃尔玛拥有超过570TB的数据。所有的数据并不只是待在那儿,往往要对它们进行挖掘、产生关联规则、识别有用模式。这称为TB级挖掘(Tera-mining)。
本书自始至终所用到的数据集都非常小。这是件好事情。我们不希望对算法运行一周时间而只是为了发现其中的逻辑错误。本书所使用的最大数据集不到100MB,而最小的数据集只有几十行。