谷歌推出庞大图书数据库 涵盖古今5000亿单词

  北京时间12月17日消息,据国外媒体报道,谷歌推出了一个庞大的图书数据库,包括了可供互联网免费下载和搜索的近520万部数字图书。此举有望开启人文教育和研究的新篇章。

  谷歌图书数据库汇集了大量的单词和短语,及其每年使用频率的变化情况。这是如此规模的数据库和搜索工具首次面向所有电脑用户开放。这个数据库包括了从1500年到2008年间出版的各类图书的5000亿个单词,涉及语种包括英语、法语、西班牙语、德语、汉语和俄语。

  这个数据库的目标用户是学者,但它也提供了一个简单的在线工具,允许任何用户在电脑上输入最多五个单词,然后查看这些单词或短语历年来的使用频率情况。或许,这将成为像《愤怒的小鸟》游戏一样令人上瘾的消遣方式。

  例如,用户可以查看“women”(女性)和“men”(男性)的使用频率变化情况。在上世纪70年代初之前,“women”在当年出版的图书当中很少被提及,而在女权主义站稳脚跟之后,“women”的使用频率逐年提升,直到1986年,“women”和“men”的使用频率曲线出现了交点。

  同时,用户还能发现,“Mickey Mouse”(米老鼠)和“Marilyn Monroe”(玛丽莲·梦露)在平面书籍中出现的频繁也不及美国前总统“Jimmy Carter”(吉米·卡特)。

  推动人文学科研究变革

  美国哈佛大学研究员埃雷兹·利伯曼·艾丁(Erez Lieberman Aiden)表示:“这个数据库的目标是使8岁的孩子也能浏览图书所记载的历史文化趋势。”利伯曼·艾丁与另外一名哈佛大学研究员让·巴普蒂斯特·米歇尔(Jean-Baptiste Michel)与谷歌一起建立了这个庞大的图书数据库,并启动了一个研究项目,研究庞大的数字数据库将如何转变我们的语言、文化和观念。

  他们的研究成果将发表在本周五出版的《科学》杂志上。此次研究为那些拒绝量化分析的文学、历史和其他人文学科的人提供了一种全新的研究方法。《科学》杂志也破例将这份研究报告向非注册用户开放。

  利伯曼·艾丁表示:“我们要说明,将高质量的数据分析应用于人文学科也是可行的。”艾丁是一名应用数学和组学的专家,他将这种研究方法称作“文化组学”(culturomics)。

  用户可以下载该数据库的数据,并建立自己的搜索工具。

  研究人员还以1800年以起点,对“名气”的持续时间进行了研究。研究发现,在20世纪中页,书籍中对名人的记录的消失速度相当于19世纪初的两倍。报告称:“未来,每个人的名气只能持续7.5分钟。”

  关于发明创造,研究人员发现,在19世纪初,科技进步平均需要66年时间才能被主流文化接受,而1880年至1920年只需要27年。他们还对一些比较特殊的英语动词进行了研究,看其如何从最初的过去时词尾不加“ed”(如learnt)演变为如今的格式(如learned)。

  研究人员发现,在过去50年里,英语词汇里增加了100多万个单词,增幅达到70%。他们还表明,增加新兴流行词汇和删除过时词汇能够大大加快辞典的更新速度。

  哈佛大学语言学家史蒂芬·平克(Steven Pinker)过去20年一直在研究英语语法和过去时。他说:“当我看到这个数据库的时候,我感到非常兴奋。这不禁使我们怀疑,如果它早点出现,将会对语言的发展产生何种影响。”

  平克表示,关于动词演变的信息“使得结果更为可信和全面”,“这篇论文中的报告仅仅是一个开始。”尽管曾多次反对在人文学科的部分领域进行量化分析,但平克表示,他相信这个数据库以及类似工具将普及开来。

  人文学者的质疑

  不过迅速浏览了该论文的人文学者的态度则比较模棱两可。哈佛大学英语教授路易斯·梅南德(Louis Menand)表示,这是个不错的工具,尤其是对语言学家而言。但他警告说,在文化历史领域,“很明显有些说法过于夸张”。他还指出,在这篇论文的13名作者当中,没有一名人文学者。他说:“这个研究项目甚至没有一名历史学家参与其中。”

  哥伦比亚大学美国历史教授阿伦·布里克利(Alan Brinkley)表示,现在就评判单词和短语搜索对世界的影响还为时过早。他说:“我可以想象到很多有趣的用途,但我不知道这些数据能说明什么。”

  米歇尔和艾丁都认识到了人文学者的担忧,并强调说,“文化组学”只是提供信息,对信息的解释仍然是必不可少的。艾丁说:“我并不是要向人文学者说明什么,我们只是抛出一些有趣的信息。问题在于,你是否愿意研究这些数据。”

  研究项目进展

  艾丁和米歇尔于2004年开始了他们对不规则动词的研究项目。当时谷歌图书尚未面世,他们不得不一页一页地翻阅大量的图书,这个过程耗时18个月。艾丁说:“当时我们精疲力竭。”

  后来,他们了解到了谷歌计划建立一个数字图书馆,存储有史以来出版过的所有图书。两人认识到,这有可能使他们的研究发生革命性变化。因此,他们找到了谷歌该研究项目的负责人彼得·诺维格(Peter Norvig),表示希望利用谷歌图书进行数据采集和统计分析。

  米歇尔表示,“他认识到,对于科学和谷歌而言,这都是一个重要机遇。在接下来四年时间里,我们处理了很多复杂问题”,其中包括法律问题和数字化问题。美国出版商协会和作家协会与谷歌达成的数字图书版权协议目前仍有待法院批准。谷歌表示,“文化组学”研究项目不涉及任何篡权问题,因为这些图书本身或者部分内容是无法阅读的。

  到目前为止,谷歌已经扫描了已出版图书的11%,涵盖约2万亿个单词。即将发表在《科学》杂志上的论文使用了4%的数据。如此庞大的数据使得以前所未有的方式进行文化影响的量化分析变得可能。应用数学和系统生物学家米歇尔表示,具有文化意义的单词在书籍中出现的频繁远远低于日常用语,要想获得精确的结果,就必须有规模庞大的样本。他表示,要想知道“Sasquatch”是否渗透进了文化领域,需要分析至少10亿个单词。

时间: 2024-12-21 11:36:06

谷歌推出庞大图书数据库 涵盖古今5000亿单词的相关文章

甲骨文公司日前宣布推出Oracle NoSQL数据库2.0版

北京,2012年12月28日--甲骨文公司日前宣布推出Oracle NoSQL数据库2.0版(Oracle NoSQL Database 2.0),持续推动其在数据管理技术领域的创新.这是一款具有高可扩展性.低延迟.面向实时大数据工作负载的核心价值数据库. Oracle NoSQL数据库2.0版增加了对存储和大型对象(如文档和图像)检索的支持,以及在应对不断变化的生产数据处理要求时,用于分配存储和计算资源的动态弹性和自动重新调整性能. Oracle NoSQL数据库2.0版实现了与Oracle数

谷歌推出“节点池” 要推进超融合?

资源池化这个概念在IT圈尤其是超融合领域已经被炒了很久,主要是让计算资源即CPU.存储.网络等等有了新的组织结构,形成资源池. 以虚拟资源池为例,就是把服务器.存储.网络都集中到一个虚拟资源池中,然后当应用程序需要资源时,就到资源池中去抓取,这样能够提高资源的利用率.实际上与云计算的概念有些相像,是一个将存储.计算等资源共享的集合,成为了实现超融合架构的基础条件. 资源池成为了实现超融合架构的基础条件 浪潮.曙光等企业也纷纷推出了自己的融合架构.例如浪潮的SmartRack将服务器外部资源进行整

谷歌推出蜂鸟算法:外贸网站将迎来春天还是严冬

9月26日谷歌推出了蜂鸟算法,这个算法将会影响到90%的查询词,可以说范围非常大,虽然蜂鸟算法已经悄悄上线一个月了,而且也没有大规模的站长抱怨网站出问题,但是这个算法影响的范围确实已经很大了.蜂鸟算法的最终目的是提升用户搜索体验,让谷歌更加智能化.人性化,以后在谷歌里搜索一个句子,也许就能够看到自己想要的结果,这个算法抛弃了以往的搜索引擎的分词技术.闲话不多说了,那么这个算法对于外贸网站有什么影响呢?是新的机遇?还是新的挑战呢?谷歌算法的方向也是百度在效仿的,我们可以猜测一下未来百度会有哪些改变

Dart:谷歌推出的web编程语言

Dart是谷歌推出的一种web编程语言,Dart 1.0版本已完工. Dart是为网站与web应用在程序效率和软件表现方面对JavaScript的一种提升.项目主管Lars Bak在博客更新中说,1.0版本的发布也就意味着Dart已经可以正式用于web世界,而不再只是测试.虽然还有很多障碍让Dart无法直接用于web,谷歌还是为之提供了一些间接的实现机制,并且尝试说服其他浏览器制造商Dart值得使用. Dart是在2年前初次登上历史舞台的,本次1.0版本的发布则是在比利时的Devoxx大会上.谷

谷歌推出独立文档编辑应用

新浪科技讯 北京时间5月4日午间消息,谷歌(527.93,-3.42,-0.64%)周三宣布,在Android和iOS平台发布了单独的Google Docs和Google Sheets办公应用,将移动平台的文档和表格编辑功能从Google Drive中分离出来. 谷歌于2年多以前发布了Google Drive.该服务的竞争对手包括Dropbox和OneDrive等云计算服务.不过,当时谷歌也取消了单独的Google Docs服务.如果用户希望通过手机或平板电脑查看及编辑通过Google Driv

谷歌推出全新Hangouts Chat和Meet应用

自从谷歌推出Allo和Duo以来,我们已经清楚,Hangouts将成为消费产品到商业产品的转型之作.今日,谷歌宣布推出两项全新功能Hangouts Chat和Hangouts Meet. 原版Hangouts应用现在仍可使用,但将逐渐被Chat和Meet取代.显而易见的是,这两项功能都是针对Slack而推出的,将与Slack进行更深入的合作. Chat适合于团队会议.和Slack一样,你可以为不同项目或团队的人开设"虚拟房间",其包括从一开始的线性会话.分享自Drive和Docs的文件

谷歌推出简易版地图引擎 普通网民可定制地图

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 3月28日消息,据国外媒体报道,之前,谷歌推出地图引擎,第三方网站或公司(比如一家餐馆或超市连锁)可以实现定制地图.3月27日,谷歌首次推出了面向普通网民的简易版地图引擎(Google Maps Engine Lite),地图爱好者将可以大展拳脚. 该引擎仍是测试版.谷歌表示,通过这个简易版引擎的工具(使用十分简单),普通网民可以提交一组数据

谷歌推出新工具可帮助用户立下“数字遗嘱”

据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,谷歌推出新工具帮助用户立下"数字遗嘱",以便在离世后,或网络账户长期不使用后(虚拟死亡),对与该用户相关联的照片.账户信息.个人档案等数据进行注销清除.该项工具命名为Inactive Account Manager(不活跃帐户管理器),旨在按照用户"生前愿望"妥善管理"生后"的虚拟资产. 图片来源网络 "

D1net阅闻:谷歌推出固话服务 用光纤挑战传统电信巨头

谷歌推出固话服务 用光纤挑战传统电信巨头 我们许多人可能都已经放弃使用固定电话,但是在美国,许多家庭依然保留着固话服务.谷歌在其中寻找到新的机遇:谷歌刚刚宣布推出第一种固话服务Fiber Phone,它是谷歌宽带和电视服务项目Google Fiber的一部分.已经使用谷歌Google Fiber服务的用户,只需每月增加10美元就可以使用Fiber Phone.用户的Fiber Phone号码保存在云端,这意味着用户可以在任何设备上使用它,包括智能手机.平板电脑或笔记本电脑等. Snapchat大