谷歌 Ngrams :大数据如何创造错觉

如果我说美国人现在开始越来越以自我为中心了,你也许会想这个老家伙肯定又要嘟囔些「过去才是好日子」之类的。但是,如果我说我有着对1500亿个文本词语的分析来支持这个的宣称呢?在几十年前,这样规模的证据简直是天方夜谭。而在今天,1500亿个数据已经过时了。「大数据」分析的热潮已经卷过了生物学、语义学、金融学以及其相间的各种领域。

尽管没有人能够在如何定义上取得一致,但大致概念是找到足够大的数据库,这样他们可以发现传统调查里无法发现的规律。这些数据来源于数百万个现实用户的行为,例如,发推特或信用卡消费,并且这些行为需要上千台计算机来收集、存储与分析。而对于许多计算机和研究者来说,这个投资是值得的,因为数据中的规律可以解锁从基因序列到明日股票价格的一切信息。

但是有一个问题:我们会不禁认为在如此惊人数量的数据的支持下,基于大数据的研究不可能是错的。然而,数据的海量特征会给结果灌注一种错误的确定感。许多的结果都是不真实的——而其原因会让我们重新思考那些盲目信任大数据的研究。

在语言和文化中,大数据隆重地在 2011 年出场,那时谷歌发布了它的 Ngrams 工具。谷歌在《Science》杂志中发表的文章大张旗鼓地宣布, Ngrams 可以让用户在谷歌扫描书籍数据库中寻找特定短语——这个数据库囊括了几乎 4% 的出版过的书籍!——并获知这些短语的频率如何随着时间而变化。这篇论文的作者预言了「文化经济学」的降临,一个基于大量数据的对文化的研究,并且自此以后,谷歌 Ngrams 变成了一个几乎无限的娱乐来源——但也是语义学、心理学和社会学的一座金矿。例如,他们搜罗了数百万书籍去展示,是的,美国正在变得愈来愈个人主义,我们正在「每一年都在加速忘记我们的过去」,道德理想正在从我们的文化意识中消失。

我们正在失去「希望」:网络漫画《xkcd》的作者 Randal Munroe 所创造的许多有趣的小漫画之一是一个关于「希望」的 Ngrams 表格。如果 Ngrams 真的反射出了我们的文化,我们也许正在前往一个黑暗的未来。

问题开始于 Ngrams 语料库建立的方式。在去年十月发表的一篇研究中,三位来自佛蒙特大学(University of Vermont,UVM)的研究者指出,总体来说,Google Books 收纳了每 一本书的复印版。这与它的最初目标完美相符:让这些书本的内容完全呈现于谷歌的强大检索技术中。尽管从社会学研究的角度来说,它让语料库有了危险的歪曲。

举个例子,一些书籍沦落到了低于它们真正文化重量的境地:《指环王》的影响力还没有《巴伐利亚的巫术迫害》多。而相反的,一些作家则开始变得十分凸显。从英文小说的数据来看,你可以总结出在上世纪初期的20年里,每个角色的兄弟都叫做 Lanny。实际上这个数据甚至反映了一位(并不一定是受欢迎的)作家 Upton Sinclair 有多么多产:他写出了11部有着同一个「Lanny Budd」的小说。

到底谁是 Lanny ?:「Lanny」与其他英文小说中常见名字相对比的谷歌 Ngrams 图标

更加糟糕的是 Ngrams 并不是已出版书籍的一种连续的、平衡的缩影。同一份 UVM 的研究证明,在许多发生的创作变化之中,值得注意的是开始于上世纪60年代的科幻小说的增多。所有这些都让我们很难相信谷歌的 Ngrams 能够准确地反映出文字文化主流随着时间的变化。

FIGURE 图表:主要用于标题的大写字母F开头的「Figure」使用频率在20世纪大幅上升,意味着语料库中科技文章开始增加。这也许解释了一些关于社会的问题,但是并没有更多解释大多数社会是如何用这些词语的。

即使通过了数据的来源的检验,在「理解」这一关依然存在尖锐的问题。的确,像「性格」和「尊严」这样的用词在过去几十年的使用也许下降了。但是这意味着人们对于道德的关注就减少了吗?伊利诺伊斯大学香槟分校的英文学教授 Ted Underwood 警告说,不要这么快下定义。他指出,我们现在关于道德的理解也许与在 19、20世纪之交时的概念有着巨大出入,并且「尊严」也许因为非道德的原因变得逐渐普及化。因此任何我们从将眼下的关联投射到过去所总结的结论都是可疑的。

当然了,这些对于统计学和语义学来说都不是新鲜事。数据与表征是他们的面包与黄油。而谷歌 Ngrams 不同的是,它有着让纯粹的数据遮蔽了我们的双眼并导致人们误入歧途的危险。

这种倾向不仅仅出现在对于 Ngrams 的研究中。相似的错误也损害着各种大数据项目。例如,谷歌的 Google Flu Trends(GFT)项目。诞生于 2008 年的 GFT 项目会计算数百万的谷歌检索中「发烧」与「咳嗽」等词语出现的数量,利用它们去「预测」多少人得了流感。有了这些估测,公众健康机构就能够在疾疫控制中心从医生报告中得出真正数量的两周前就采取行动。

当大数据不再被看成一个万金油的时候,它才会真正有颠覆性。

最初,GFT 宣称自己有 97% 的准确度。但是根据西北大学文档的研究,这种准确度仅仅是一个侥幸。首先,GFT 完全忽视了 2009 年春天和夏天「猪流感」的蔓延(最后证实 GFT 大部分预测的是冬天)。接着,系统开始去过度预测流感。实际上,它在 2013 年的峰值预测是真实的140%。最终,谷歌直接停了整个项目。

那么,到底是哪里错了呢?有了 Ngrams,人们会不再仔细考虑他们手中数据的来源和诠释。谷歌检索中的数据资源并不是一个静止的野兽。当谷歌开始自动补充检索内容时,用户们开始习惯于接受提供的关键词,扭曲 GFT 所看到的搜索。在理解方面,GFT 的工程师在最开始让 GFT 采用面值数据;几乎每一个检索术语都被当成潜在的流感指示。有了数百万个检索术语后,GFT 毫无疑问的开始过度诠释一些季节性的词语,例如把「雪」来当做流感的证据。

但是,当大数据不再被看做是万金油时,它才真正具有了颠覆性。哥伦比亚大学的研究者 Jeffrey Shaman 和其他许多团队在流感预测上利用 CDC 去补偿 GFT 的误差,其结果比 CDC 和 GFT 两者都要好。根据 CDC 来看,「Shaman 的团队测试了这个季节已经出现的实际流感的模型」。通过将过去的短时间情况纳入到考虑当中,Shaman 和他的团队精确调整了他们的数学模型,去更好地预测未来。团队所需要的就是去严格地评估关于数据的假设。

为了不让我自己听起来像一个反谷歌斗士,我不得不再说下,谷歌绝对不是唯一的一个犯错者。我的妻子,一位经济学家,曾在一家统计整个互联网的职位发布并收集整合成为国家劳动部门的统计数据的公司工作。公司的经理曾经夸口他们分析了整个国家 80% 的职位,数据的数量致使他们盲目走向了误解的方向。举例来说,一家当地的沃尔玛也许会发布一个销售助理职位,而它实际上想要招十个,或者它也许会让这个发布一直在挂在那里几周,直至人满为止。

因此,相比于屈服在「大数据废墟」下,我们最好在心里保持我们的质疑——即使在有人提到海量文字支持的时候。

本文转自d1net(转载)

时间: 2024-10-28 22:03:36

谷歌 Ngrams :大数据如何创造错觉的相关文章

谷歌布局大数据产品:市场规模或达数千亿美元

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [导读]谷歌相信,约三分之一的数字广告很快将以点击数之外的其他效力指标来衡量其价值. 大数据广告市场潜力或达到数千亿美元(腾讯科技配图) 腾讯科技讯(林靖东)北京时间5月2日消息,据国外媒体报道,谷歌正在开发一些大数据产品来帮助广告客户分析和评估它们的广告活动的效率,这已经不是什么新闻了;但是谷歌认为这个市场领域的发展潜力非常大,有可能达到数千亿美元. 据摩根士丹利分析师斯科特德维特(Scott Devitt).乔丹蒙纳罕(Jordan Monah

谷歌研发大数据产品 其潜在市场或达数千亿美元

中介交易 SEO诊断 淘宝客 云主机 技术大厅 据国外媒体报道,谷歌正在开发一些大数据产品来帮助广告客户分析和评估它们的广告活动的效率,这已经不是什么新闻了;但是谷歌认为这个市场领域的发展潜力非常大,有可能达到数千亿美元. 据摩根士丹利分析师斯科特德维特(Scott Devitt).乔丹蒙纳罕(Jordan Monahan)和尼桑特福尔玛(Nishant Verma)称,谷歌相信大数据产品有着巨大的发展潜力,这个市场的规模有可能达到数千亿美元. 谷歌今年推出了一款名为"Brand Lift in

谷歌看好大数据 潜在市场或达到数千亿美元

据国外媒体报道,谷歌正在开发一些大数据产品来帮助广告客户分析和评估它们的广告活动的效率,这已经不是什么新闻了:但是谷歌认为这个市场领域的发展潜力非常大,有可能达到数千亿美元. 据摩根士丹利分析师斯科特德维特(Scott Devitt).乔丹蒙纳罕(Jordan Monahan)和尼桑特福尔玛(Nishant Verma)称,谷歌相信大数据产品有着巨大的发展潜力,这个市场的规模有可能达到数千亿美元. 谷歌今年推出了一款名为"Brand Lift in Adwords"的产品,它的主要作用

大数据可以创造出更高质量的价值

作为最早洞见大数据时代发展趋势的数据科学家之一,舍恩伯格在数博会"数据资产化发展论坛"上发表了<大数据的大价值>主题演讲.舍恩伯格认为,大数据是可以反复使用的资源,人们可以利用大数据创造出更高质量的价值. 舍恩伯格说,如今,数据已经成为了有价值的公司资产.重要的经济投入和新兴商业模式的基石.虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题.人们必须意识到数据价值,并合理加以利用. 什么样的数据可与未来潜在因素发生更加紧密的联系?舍恩伯格认为,关键就在于让数据&qu

王坚:相比谷歌 阿里“大数据”运营仍然粗浅

http://www.aliyun.com/zixun/aggregation/7554.html">阿里巴巴集团CTO王坚今日在谈及"大数据"对于企业经营与管理的变革时表示,今日企业若对于"大数据"的理解仍停留在互联网所带来的消费者习惯上师很肤浅的.他表示,阿里巴巴的最成功之处在于让数据产生财富,但是他坦言,与谷歌(微博)相比,阿里巴巴对于"大数据"的运营仍然粗浅. 王坚称,2008年阿里巴巴在某次会议上定性自身相比一个互联网公

谷歌利用大数据对抗流感

冬天来临,世界许多地方都出现了流感症状.据美国疾病控制管理中心称,美国29个周及纽约都发出了流感高爆发预警,其他的9个州也出现了轻微流感病例. 在世界范围内监控流感病情的最好方法一直没有定论,但谷歌声称其创新性方案利用聚合http://www.aliyun.com/zixun/aggregation/10293.html">搜索数据对流感进行跟踪,可达到接近实时的效率.Google Flu Trends网站并不是第一次出现,它在2008年就已经作为谷歌的社会福利项目面世,但对企业和政府来说

谷歌领衔大数据!科技公司烧钱大比拼

作为大型的科技企业,烧钱是必不可免的事情.谷歌.亚马逊和微软为确保其http://www.aliyun.com/zixun/aggregation/31875.html">全球网络正常运行,都需要付出不菲代价.据统计,今年第一季度,上述三家科技公司的资本开支总计高达46亿美元,同比增长约65%.相比之下,这三家公司的营收总计仅增长12%. 烧钱大数据对比(来自腾讯) 从上图可以看到,三家巨头的支出数据连年攀升.尤其谷歌,2013年上涨一倍有余!支出为23亿美元! 三家公司的资金流向也有所不

谷歌收购大数据公司Rangespan 强化其电商业务

据科技博客网站TechCrunch报道,Google收购了英国大数据公司Rangespan,强化其电子商务业务,尤其是零售门户Google Shopping. Rangespan向零售商提供后端办公服务,利用大数据技术帮助零售商根据实时销售情况调整产品库存.Rangespan也是Google今年收购的第三家英国公司,此前Google收购了英国人工智能公司DeepMind和安全技术创业公司Spider.io. Rangespan创始人赖安·里根(Ryan Regan)表示,该公司的服务将被关闭,整

谷歌利用大数据提高通用翻译

谷歌翻译(Google Translate)是目前翻译网页或简短的文字片段使用最多的一个快捷工具.据德国媒体Der Spiegel报道,支持该服务的后台核心技术,会在不久的将来被改进为类似"星际迷航(Star Trek)"那样的通用翻译器. 当然,谷歌并不是唯一一家致力于此事的公司.从Facebook到微软的每个人都有这样一个野心,那就是创建一个能最终彻底解决语言障碍的服务.而这个野心实际吗?如果想要实现又需要付出多大的努力? 机器翻译的存在由来已久,但一直远远落后于人工翻译. 很多机