谷歌学术搜索的风雨十年

摘要: 在今年《自然》杂志开展的一项调查中,60%的科学家表示自己经常使用该项服务。日前,《自然》杂志
对话谷歌学术共同创始人Anurag Acharya,聊了聊谷歌学术的过去和未来。 问: 你如何

在今年《自然》杂志开展的一项调查中,60%的科学家表示自己经常使用该项服务。日前,《自然》杂志对话谷歌学术共同创始人Anurag Acharya,聊了聊谷歌学术的过去和未来。

问:你如何知道哪些文献需要检索?

答:“学术”是学术领域的其他人都认为是学术的东西,这听起来像是一个递归的定义,但确实是这样的。我们通过爬虫抓取所有网页。以一篇新发表的博客为例,我们会判断它和其他学术文章存在何种联系。如果很多人引用它,或者它引用了很多人的文章,那么它可能具有学术价值。这里面并没有神奇的公式可以套用,只能从很多特性中寻找证据。

问:创建谷歌学术的想法从何而来?

答:我在2000年来到谷歌,之前则在加州大学圣芭芭拉分校从事学术工作。很明显,假如继续从事学术研究,我不可能产生比待在谷歌更大的影响 -- 使世界各地的人们都可以找到信息。因此,我放弃了学术道路,花了4年时间管理谷歌网页检索团队。那是一段异常忙碌的日子,整个人可以说是心力交瘁。

Alex Verstak(注:Acharya在网页检索团队的同事)和我决定休假半年,并试图利用这段时间让学术文章的搜索变得更加方便快捷。当时的想法并不是创建谷歌学术,而是想提高谷歌在用户利用网页搜索学术文章时的排名。不过,随之而来的问题是如何判定搜索用户的意图:他们需要学术性的结果或者只是个门外汉?我们据此建立了一个内部原型,谷歌学术变成了一种非常有用和重要的服务。

问:这个想法很快就取得了成功吗?

答:很快就广受欢迎。谷歌学术启用后,使用量呈指数级增长。一个重要的差别在于我们按照与用户请求的相关性排列搜索结果,这是此前的学术性搜索服务无法做到的。它们采用的是倒序方式,即首先提供最新的结果。我们还通过爬虫抓取到研究论文的全部文本,尽管在一开始并未将所有出版商的全部文本包括进来。

问:花了很多年才说服文献出版社允许你们抓去全文,当时是不是感觉很困难?

答:这得考虑到十年前的情况,那时候网络搜索还很轻量 -- 人们更愿意搜索Britney Spears的图片而不是学术文献。但我们知道有纯粹的学术搜索请求,我们不得不说服出版商,我们的服务会为他们带来更多的流量。当然在谷歌学术搜索推出前我们就与他们有合作。

问:2012年,谷歌学术从谷歌主页搜索选项的下拉式菜单中消失。你是否担心谷歌学术的地位可能下降或者被砍掉?

答:不担心。我们的团队在不断成长中,从成立之初的两个人发展到现在的9人。很多人或许会将谷歌学术从首页菜单中的撤销看成是一种降级,但事实并非如此。这些菜单链接是为了帮助用户从主页转到其他服务,因此会突出那些使用最多的转换链接。如果用户已经知道如何启动谷歌学术,他们就不需要那种转换链接。就是这样而已。

问:谷歌学术如何盈利?

答:谷歌学术到目前还未盈利。其实,谷歌提供的很多服务都不赚钱。谷歌学术的首要定位是回馈学术界。我们之所以成功坚持到现在,就是因为在谷歌看来,这项服务的花费并不高。就访问量来说,谷歌学术同很多谷歌服务相比很小,因此利用广告盈利的机会相对较少。不过,到目前为止我们还没有盈利上的压力。

问:谷歌学术每天的访问量是多少?这项服务能追踪多少文献?

答:我无法回答你,这是一个非常非常大的数字。对于追踪文献的数量也是这样,除了 -- 自从我们推出谷歌学术后,这个数字增长了一个数量级。很多人关心这些数字,但这真没多大必要。我们关注的是用户能否找到他们想要的文献。若果文献本身很少的话,这些数字的确很重要,但我们显然拥有足够多的文献。

问:谷歌学术已经推出了额外的服务:例如作者的资料页和一个推荐引擎。这意味着谷歌学术准备从一个搜索引擎转向成为类似文献计量学的工具吗?

答:既是,也不是。推出资料页的目的还是在于帮助用户找到他们需要的文献。有时候你可能忘了文献的标题,但你可能记得它的作者,这样你就能找到相关文献。你还能追踪某个作者的文献和工作,着同样是查找文献的线索。当然资料页还有别的用途,通过阅读一个人的资料页,我们可以了解他的学术的演化历程、他的学术伙伴们都有谁,甚至可以向他推荐一些他的领域中别的研究人员关注的主题。

问:你担心这种把戏吗 -- 造假的文献通过被谷歌学术检索增加引用量?

答:不担心。是的,你可以添加你想要的任何文件。但是,一切都是可见的 -- 你的资料页上列出的文献,引用你文献的文献等等。如果发现你造假,世界上的任何人都能打电话给你,基本上是你的学术生涯就结束了。我们没有看到垃圾邮件正是由于这个原因。我有很多的经验处理垃圾邮件,因为我曾经为搜索部门工作。当人们都是匿名的,垃圾邮件会变得更容易。但如果我要建立的是我的公开出版物的历史,我会比较谨慎。

问:未来谷歌学术会有什么样的改变?

答:我们非常擅长帮助用户找到他们要搜索的文章。不过,下一步我们打算做的一件大事是帮助用户找到他们需要但又不知如何搜索的文章。我们能否让意外发现变得更加容易?如何帮助每个人在无须翻阅上百篇论文导致一整天任何其他事都干不了的情况下,轻松掌握学术前沿?

我不知道我们将如何实现这个目标。尽管在这方面我们已经做了一些初步努力如推出建议搜索引擎,但离想要的东西还相去甚远。在向用户推送不是其主动搜索的信息时,存在一个本质性问题:内容必须具有相关性,确保我们没有浪费用户时间,但又不能太相关,因为用户已经知道这些文章。

问:怎么帮助用户直接找到数据而不是文献呢?

答:这是一个有趣的想法。在收费文献里搜索数据是完全可行的。但当我们给用户的搜索结果指向一个收费文献时,用户只能看到摘要。对全文检索而言,我们也是依靠提供摘要信息让用户评估某篇文献对他们是否有用。我们还没有针对数据搜索建立类似文本搜索的模型。

问:许多人希望能通过谷歌学术开放API,这样他们可以自己写搜索的脚本或自动获取别人的资料页,在此之上提供更多的服务。这可行吗?

答:我不能这么做。我们自己和出版商合作伙伴都不会喜欢这个想法。我们被允许扫描所有的文献,而不是讲这个信息分发出去。和出版商的合作非常重要,我们因此得以可以继续构建一个对所有人免费的全面搜索服务。这是我们的初心,其他任何东西都是次要的。

问:下一个十年你还会为谷歌学术工作吗?

答:首先我从来没想到我竟然为谷歌学术忙活了十年!我妻子在我(为谷歌学术)工作了5年、7年的时候提醒过我(工作了这么久),而我现在还没离开。谷歌学术是我能想到我能做的最重要的事情,我们的工作使这个星球上最聪明的人更有效率。离开谷歌学术是一个非常有吸引力的命题,而我无法预见它会很快很轻松地实现。

问:当你还是印度理工学院的学生时,你是否想过要是有这么一个免费、有效的搜索引擎该多好?

答:(谷歌学术)影响了我曾经关注的问题。举例来说,当时没有任何工具可以对只提供摘要的收费文献进行全文检索。我认为这是需要被解决的问题,因为对读者来说,需要知道信息在哪儿。如果你知道一个关键的信息在一篇收费文献里,你可以写信给作者。但在这一点上,谷歌学术有它自己的生命。

问:使用谷歌学术的用户是否有必要担心数据隐私问题?

答:我们采用标准的谷歌数据收集政策,谷歌学术也不例外。我在谷歌的角色主要是负责谷歌学术,所以不会谈太多更宽泛的问题。

时间: 2024-07-30 15:30:24

谷歌学术搜索的风雨十年的相关文章

主题模型整合随机游走框架在学术搜索中的应用

原文:A Topic Modeling Approach and its Integration into the Random Walk Framework for Academic Search 摘要 在本文中,我们提出一个统一的将主题模型方法(Topic Model)整合进随机游走(Random Walk)框架的方法,并将其应用到学术搜索里.具体地,我们提出了一种能同时将论文,作者和出版地进行建模的主题模型.我们将主题建模与随机游走框架结合起来.实验结果表面,我们提出的这种学术搜索方法明显

《谷歌语义搜索》一第1章 什么是语义搜索1.1 向语义搜索迁移

第1章 什么是语义搜索 谷歌语义搜索搜索是我们在 Web 上浏览的途径.如果你的业务在搜索中不可见的话,它就很难被你的客户发现.搜索首先是一种营销,并正经历着一场巨大的变革. 在本章中,我们讨论谷歌搜索中出现的新元素.为什么会发生这种变化以及它将如何以你能想到的几乎每种方式来影响你的业务.本章提供一份清单,罗列了你为了能利用上即将到来的变化而需要去做的每件事情,并且本章的每一节帮助你理解你需要做些什么才能充分利用谷歌的语义搜索. 1.1 向语义搜索迁移 谷歌语义搜索如今,当我在谷歌的搜索框中敲入

《谷歌语义搜索》一1.4 没法再借势了

1.4 没法再借势了 谷歌语义搜索 搜索和借势搜索的企图就如同培根和鸡蛋或者饼干和牛奶一样形影不离.未经谷歌允许就从事了SEO的公司包括德国宝马(BMW)(它们被剔出了索引),以及杰西潘尼(JC Penney)和Overstock(它们都受到了惩罚).每一次的损失都是灾难性的,宝马品牌在其国内市场的Web上消失了:杰西潘尼和Overstock在谷歌降低它们Web排名后的三个月内遭受的损失差点让它们破产清算:尽管在下行市场中运作的它们更有可能面对各种各样的问题,但失去了在谷歌搜索第一页中的位置这一

谷歌研究/搜索两大部门整合:一些大事正在发生

人工智能正在扮演越来越重要的角色.我们认为,一些真正的大事正在发生. 谷歌的研究部门正在迅速发展,并招揽了一些知名计算科学家,包括鼎鼎大名的吉奥夫·辛顿(Geoffrey Hinton).皮特·诺维格(Peter Norvig)和雷伊·库兹韦尔(Ray Kurzweil).与此同时,谷歌也有一些自行培养的天才,例如传说中的技术大牛杰夫·迪恩(Jeff Dean). 这些知名人物都在谷歌从事技术研发,并因此名声大噪.但实际上,他们都在为一名更低调的工程师工作,这就是约翰·基南德里(John Gia

360搜索两周年推出学术搜索

中介交易 SEO诊断 淘宝客 云主机 技术大厅 8月16日,国内第二大中文搜索引擎360搜索在上线两周年之际,正式推出360学术索引功能.据介绍,此次360学术上线,在中文外文检索上都做了极大的扩容努力,并优化了用户体验结果,使之更符合国内用户的使用习惯.上线伊始便保证了2.65亿的索引量,中文和英文各占一半,在总索引量方面已经超越百度,成为国内排名第一的亿级别索引量的互联网学术搜索平台. 目前,国内主要的学术信息检索主要有两个渠道,一是直接到数据库或期刊网站进行检索,这种检索方式的检索规模小,

谷歌图片搜索技术:如何根据图元素找对应图片

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 [导读]周末休息,闲着没事做,就无意中发现谷歌能够正常打开了,这点很出乎我的意料,谷歌的服务器不是已经搬回美国了吗?后来用ip地址64.233.183.163访问一样可以进入,难道谷歌回归中国,要抢占搜索引擎市场?一定程度上,对百度和360搜索构成威胁.下面回归正题: 现在智能手机遍布大街小巷,手机拍照成为大家生活中的一部分,有些人手

谷歌有效搜索结果仅13%

北京时间7月9日消息,据国外媒体报道,在线辅导网站Tutorspree创始人之一亚伦·哈里斯(Aaron Harris)研究发现,使用谷歌(微博)搜索仅能得到13%的有效搜索结果. 哈里斯在一篇博客文章中写道,他使用谷歌搜索"汽车修理工",然后对搜索结果页面进行了分析,并估算了页面上每一部分内容占用像素点的数量.他估计,搜索结果页面上实际上只有13%的版面呈现有机搜索结果.有机搜索结果是指基于关键词搜索到的自然结果,不包括广告. 哈里斯研究的重点是搜索结果页面上"第一屏(ab

Google谷歌代码搜索登陆谷歌实验室

今天,Google(谷歌)代码搜索登陆谷歌实验室( www.google.cn/codesearch)谷歌代码搜索为您提供了一个搜索互联网上可公开访问的源代码的场所,从而帮助您找到功能定义和代码示例.利用 Google 代码搜索,您可以: 1) 使用 正则表达式进行更为精确的搜索: 2) 按语言.许可或文件名限制搜索: 3) 查看源文件(包含指向其所在的整个包及网页的链接). 除此之外,谷歌代码搜索扩展了抓取范围,使它不仅包括完整的档案库和资料库,也包含来自网页的单个代码文件和样本代码片段.现在

谷歌加密搜索对于SEO的影响

如果谷歌曾将有公告一个搜索引擎的更新会对搜索结果或者SEO造成大的动荡的话,那肯定是谷歌最近推出的加密搜索.谷歌最新的公告说谷歌搜索的登陆用户搜索将会被加密.谷歌的这一更新并不奇怪,随着互联网的发展,隐私逐渐成为一个备受关注的问题,谷歌的这一更新目的主要是保护用户的数据,来确保用户的搜索信息是完全保密. 根据谷歌最近的发展,谷歌将会保护登陆的用户的搜索信息,并且会确保用户的搜索关键词不会被第三方机构获得.用户使用"https"的协议也可以在安全的前提下搜索信息并且保护他们的搜索信息.由