“大数据是土壤,开放的数据即为土地上的河流,河流流过之处,就会孕育起发达的数据文明。”信息管理专家涂子沛就新作《数据之巅》接受记者专访时如是说。
涂子沛 专栏作家、信息管理专家,毕业于美国卡内基梅隆大学,获信息技术科学硕士、公共管理硕士学位。
当前对大数据的讨论还局限在概念和技术层面
解放周末:《数据之巅》是您继《大数据》后的第二本著作,仍然聚焦大数据。您是什么时候开始关注大数据的?为何会关注这个话题?
涂子沛:这和我的个人经历有关。我学的是计算机专业,毕业后一直和数据打交道。十几年前,我在中国的第一份工作是数据库程序员,后来到美国从事数据仓库的开发和设计工作,为美国的一些政府部门提供数据管理、分析方面的解决方案。随着“数据库”的说法变成“数据仓库”,数据的容量和重要性在不断变大。出于职业敏感,我意识到并开始思考这个问题。2012年开始,“大数据”现象引起了全球性的关注和讨论。
解放周末:2012年,您的《大数据》一书出版不到半年就加印了7次。此后,被誉为“大数据商业应用第一人”的舍恩伯格等外国专家的相关著作相继在国内翻译出版。经过几年热议,大数据已经成为一个人尽皆知的概念,在各种场合不断被提及,以至于让人有些厌倦了。
涂子沛:之所以让人厌倦,是因为人们对大数据的讨论还局限于概念和技术层面。我想是时候更进一步,从文化和理念的层面来思考我们为何会在数据治国方面落后于人了。
以全新视角发掘美国历史上的“数据总统”、“数据将军”和“数据英雄”
解放周末:您在这本新书里作了很有趣的尝试,从数据的角度重新挖掘、解读美国200多年的历史。以这样的方式梳理美国历史,似乎没有先例。
涂子沛:确实没有人这样写过美国历史。在写这本书时,我把美国的人口普查史、经济统计史、农业统计史、工业统计史都看了一遍,从数据的角度重新梳理美国历史,试图在历史的大画面下展现数据文化是如何形成的,数据治国的理念是如何深入人心的。
解放周末:书中展示了数据文化在美国政治、经济乃至军事发展上起到的关键作用。
涂子沛:美国的崛起与数据文化息息相关。比如美国第20任总统加菲尔德堪称 “数据总统”,他在1869年对美国人口普查进行了现代化改造,并从中发现,数据不仅蕴藏着社会发展的规律,还提供了一种更为客观、广阔的历史书写方式。 “数据将军”谢尔曼在美国内战时以数据为航标,成功策划了6万大军35天内行军300多公里且不自带任何补给的远征路线,创造了军事上的奇迹。
在商业领域,美国电影《乱世佳人》是历史上第一部由数据驱动拍摄、发行的电影,创造了票房奇迹,并为未来的文化产品营销模式树立了基准。
美国民间还涌现过一些“数据英雄”。他们发现政府提供的数据不正确,耗费数年到处去追踪、访问,最终找到数据出错的原因,这种深入血液的数据精神非常值得我们思考和学习。
真正应该探究的,是“尺子”设计得是否合理
解放周末:对美国数据文化的深入探究,最终是为了关照我们自身。您在题记中开门见山地讲道:数据文化匮乏,是中国落后的一个重要原因。那么,数据文化究竟指的是什么?
涂子沛:我对数据文化有个定义,它主要有三个要素:第一,它是一种尊重事实的文化。数据是对客观事实的记录,如果不尊重数据,就会把数据当作“可以任意打扮的小姑娘”;第二,它是一种追求精确的文化。我们可以用图案、声音、文字来描绘事实,而用数据描述的事实,是最精准、最锐利的;第三,它是一种推崇理性和逻辑的文化。有了数据就要计算,计算与逻辑、理性密切相关。
解放周末:这三点恰恰是我们传统文化中较为薄弱的方面。
涂子沛:严复先生说过一句话:“华风之弊,始于作伪。”说的是国人风气的一大弊端,即热衷造假、不尊重事实。胡适先生写过一则《差不多先生传》,对国人甘于“差不多”、拒绝精准的习惯和作风深感忧虑。
当然,我国传统文化里中庸、写意的特点也有其美好的一面,但文化也要与时俱进。今天我们已经来到了一个讲求精确的大数据时代,为了适应新时代的发展,我们必须要给我们的文化基因注入数据文化这个新的因子。
解放周末:近些年来,随着“大数据”的广为人知,国人对数据越来越重视,越来越追求精确。但类似“中华民族复兴完成了62.74%”这种提法似乎让人难以接受。
涂子沛:我个人认为,大众对这件事的哄笑和批评并没有打到点子上,大多数人质疑的是民族复兴这件事怎么可以量化。事实上,世界各国的学者都在尝试对社会现象进行量化。社会研究之所以是科学,就是因为它能够量化。量化就是通过设计一把尺子,去丈量社会现象。我们真正应该探究的,是这把“尺子”设计得是否合理。在这本新书里,我对这个问题作了具体的阐述和批评。
人类新的文明将在大数据的土壤上生长起来
解放周末:在序言中,神州数码董事局主席郭为提到,我国已经是数据大国,但还不是数据强国。您怎么看?
涂子沛:数据大国将来肯定是,但数据强国现在肯定不是。目前我们的数据分析、整合能力还很薄弱。不过,我们仍然有后发优势。
很多人说大数据是黄金,是矿藏,我说,大数据是土壤,人类新的文明将在大数据的土壤上生长起来。而开放、活跃的数据就如同土壤上的河流,河流流过之处,就会孕育起发达的数据文明。这也正是我再次耗费精力向国人讲述大数据的根本原因。