几年前,带领一帮团队做“信息管家”。想法很简单,信息爆炸、资讯海量,现代人不堪重负。如何在最短时间内,最有效率和最具针对性地满足个体信息需求服务,这就是该项目要做的事。聪明的你们一看便知,它其实就是一项面向个人的信息推送服务,媒介是移动终端(如智能手机),应用是移动互联,卖点是定制、精准和个性化。技术呢,做起来很复杂,说起来又简单,就是任何人看哪些报纸、杂志,或者哪些专业、领域,甚至先看什么后看什么不想看什么都有一套固定的套路,这些别人不注意当事人又不觉得,但是通过一定的数据采集、挖掘和分析之后,会形成一个清晰的“模型”(也可以叫“路线图”,实际上叫什么不重要)。然后,系统会根据这个模型,自动抓取个体关注的信息,然后向每个订阅者推送。相较于手机报,它更窄众;相对于RSS订阅,它很个性。
记得当时在做,自觉得使命伟大、意义深远;相信它改变的不仅是自媒体形态,也将颠覆传统信息生产与传播的体系,当然,以当时的技术条件尚未真正做好它,原因是困惑和止步于“一切皆要量化”的数据分析,这太难了。后来,陆续读了一些书和文章,领略了国外前沿思想,并且看到了相关的先锋案例,这才恍然大悟,敢情我们想的和做的就是“大数据”。
大数据,和另一个“云计算”,成了时下互联网和IT业界最流行的一组概念,人们都在谈论它们,看起来好像每一个人都身临其中、亲自参与。然而,对于什么是大数据,又该怎么去理解它,却出现了不同的分歧或侧重。例如,前段时间读到涂子沛的《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》,虽然也叫大数据,但它讲的实则是信息公开、数据公正性和政府管理、社会治理层面的话题。书中特别介绍美国的样本与经验。另有苏萌、林森和周涛合著的《个性化:商业的未来》,该书对互联网技术支撑下的个性化商业服务及相关模式给出了从理念到应用的介绍。还有拉贾拉曼、厄尔曼合写的《大数据:互联网大规模数据挖掘与分布式处》。同样是一个“大数据”,但两位作者关注的是极大规模数据的挖掘。其内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。这是一本典型的技术教辅书。总得说来,这几本书都针对“大数据”的某一局部给出了较为系统和深刻的介绍,但没有对大数据的全局作出宏大视野的梳理——直到后来读到维克托·迈尔·舍恩伯格和肯尼斯·库克耶的作品《大数据时代:生活、工作与思维的大变革》,才有所改观。
这本出自“大数据时代的预言家”维克托·迈尔·舍恩伯格之手的书,其最大贡献就是在大数据方兴未艾、众说纷纭的时刻,进一步厘清了大数据的基本概念和特点,这对许多以为大数据就是“数据大”的人来说很有帮助。谢文,这位前雅虎中国总经理、知名IT评论人,在他一次主题为“大数据概念混乱,未来或将卷入混战”的演讲中,就直言不讳地指出:人们在大数据的认识上有几个误区。第一,只是从量上说,光看到数据的增长,没法说清楚普通数据和大数据的区别。数据大绝对不等于大数据。现有的设备、技术方法所能处理的多数是数据大,不是大数据。第二,数据挖掘、精细化运营、精准广告、个性化服务、推广这些不是未来大数据服务商业模式的主要部分。第三,脱离产业发展和社会进步的大背景,单纯地鼓励讨论大数据无法说明其重要性。
然而,在《大数据时代》一书中,维克托·迈尔·舍恩伯格等就清楚地指明“大数据并非一个确切的概念”。最初,这个概念是指需要处理的信息量过大,已经超出了一般处理数据时所能使用的内存量,因此工程师必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台。这些技术使得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列。与此同时,因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司就顺理成章地成为最新处理技术的领头实践者。然而,但维克托笔下的“大数据”是一种“人们在大规模数据的基础上可以做到的事情”的指代,是“人们获得新的认知,创造新的价值的源泉;还是改变市场、组织机构,以及政府与公民关系的方法”。
作为世界互联网发展的重要参与者,同时也是“大数据”浪潮的主要旗手,维克托也有警醒地认识。如他所讲,“与其他技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟曲线:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危”。正因为如此,他极为坦诚道:“本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。”
没错,它始终试图努力让人们意识到大数据的潜力与趋势,又保持必要的审慎,不夸大其词、刻意修饰,在我看来,就大数据领域,该书就是一部开创先河、开宗立派和正本清源的奠基之作。
首先,在思维观念上,维克托提醒人们要做好“三大转变”的准备:第一,在大数据时代,可以分析更多乃至全体的数据,而不再依赖于随机采样;第二,数据如此之多,因此可以放弃精确允许混杂;第三,有了数据支持,完全可以知其然而“不必”知其所以然,即从因果关系转为相关关系。此三大论断的提出,可谓石破天惊。一来意味着将彻底改变人们理解和组建社会的方法,二来预示着某些学科存在的正当性将面临史上最严峻地拷问——维克托认为,全数据模式下“样本=总体”,那么像社会科学可能是被撼动得最厉害的学科了。“这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们平常状态,也就不用担心在做研究和调查问卷时存在的偏见了。现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过twitter信息表现出的感情。更重要的是,我们现在也不再依赖抽样调查了。”维克托的观点并非一家之说,事实上,在艾伯特-拉斯洛?巴拉巴西的《爆发》一书中也提出过类似的论点,后者甚至更鲜明地表示:通过大数据和幂律分布分析,人类行为93%是可以预测的。
除了思维变革,大数据时代引发的还有“商业变革”和“管理变革”。在这两部分,维克托列举了大量案例,来强化论证如下观点:一切皆可“量化”(文字可以变成数据、方位可以变成数据、沟通可以变成数据,一切事物都可以变成数据);当前,大数据应用只是冰山一角,绝大部分隐藏表面之下——数据创新包括再利用、重组、扩展、折旧、废气与开放;另外,大数据决定着企业未来的竞争力,由此,数据中间商和数据科学家会应运而生、依势崛起。关于这一点,人们早已有目共睹。
不过话说回来,在乐观之余,维克托冷静下也感到了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。所以,他告诫世人要警惕无处不在的“第三只眼”(“老大哥”的另一种比喻)和数据独裁者的存在。基于此,他提出了“责任与自由并举的信息管理”架构来应对已经到来的大数据时代,方法包括:个人隐私保护,从个人许可到让数据使用者承担责任;个人动因v.s预测分析;击碎黑盒子,大数据程序员的崛起;反数据垄断大亨。
在这本通俗易懂的大数据经典书中,维克托为我们全景描绘了大数据重塑生活、工作和思维方式的未来。它利害攸关,影响到方方面面,势必将重构物质的世界和我们看待世界的角度。当我们置身数据的洪流,一切事物可以被量化、分析、预测,而不用关心成因,这标志着“信息社会”终于名副其实。联想到当年那个“信息管家”,项目本身让我不得不重视数据,让数据“说话”,而到了大数据时代,这不光是个人创业所需,更是整个社会行业所需。以小见大、知微见著,这就是正在发生的未来!
(责任编辑:施柏鹏)