谷歌排序背后的技术

  理解查询关键词:理解我们的用户在寻找什么(而不仅仅是几个查询词)非常关键。在这一领域我们取得了几个值得注意的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。

  在我上一篇文章里,我已经介绍了关于谷歌搜索排序的哲学。作为我们探讨搜索质量的努力的一部分,我要向大家介绍更多的谷歌搜索排序背后的技术。我们的排名系统的核心技术源于学术领域的情报检索学。情报检索学对搜索的研究已有近 50 年的历史了。它应用字符突出性的统计讯息,例如字符频率之类,来完成网页排序(可参照“现代情报检索: 概要介绍”来快速了解情报检索技术)。情报检索学为我们提供了一个坚实的基础,在此基础上我们应用最常访问链接、网页结构以及其他创新技术建立起了一个庞大系统。

  在过去十年,搜索已经从“给我我所说的”发展到“给我我想要的”。用户对搜索的期望无疑已经提高。我们努力工作以达到每个用户的期望,为了这一点,我们需要更好的理解网页,理解查询,理解用户。在上个十年里,我们已经将理解以上三个部分(在搜索过程中)的技术推到一个全新的层次。

  在谷歌,当我们讨论查询关键词的时候,我使用方括号[ ]来标记最开始和最后的查询词(请参考 Fred.ren 的“如何输入查询关键词”),在本文中我将自始至终使用这一标记。(网页和搜索结果频繁变化,因此,本文举例的解释也许与即时查询的结果不一样。)

  理解网页:多年来我们在抓取和索引系统上投入了大量精力。因此,我们拥有一个非常庞大、更新及时的索引。除了规模和更新,我们还用其他方法改进索引。我们用于理解网页的核心技术之一就是理解这个网页要表达的相关的重要概念的能力,即使这个概念在网页中并没有处于明显的位置。比如,即使伦敦 Sprovieri Gallery 的官方网页中没有出现 London 或 Londra 的字眼,但是我们依然能够在搜索结果中给意大利语查询 [galleria sprovieri londra] 提供 Sprovieri Gallery 的官方网页。在美国,一个用户搜索 [cool tech pc vancouver, wa],将找到 www.cooltechpc.com 主页,即使这个网页没有在任何一个地方提到他们在 Vancouver,WA。我们开发的另一些技术比如在网页中区分重要与次重要字符以及信息的新鲜程度。

  理解查询关键词:理解我们的用户在寻找什么(而不仅仅是几个查询词)非常关键。在这一领域我们取得了几个值得注意的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。

  绝大多数用户已都曾经用过我们的拼写建议系统。当有人输入 [kofee annan] 时我们便会知道他实际在搜索 Mr. Kofi Annan,系统会立即提示:Did you mean: kofi annan;但是,有人搜索 [kofee beans] 实际上就是在搜索咖啡豆。在全球范围里都做到很高的精确度是困难的,但我们做得不错。

  同义词是我们理解查询词的基础。这也是我们正在为谷歌解决的最困难的问题之一。虽然有时对人们来说是很容易理解的词,但对于自动语言处理系统来讲却是尚未解决的难题。作为一个用户,我不想为我的查询中使用什么词汇考虑太多。通常我甚至不知道正确的词是什么。这就是我们的同义词系统发挥作用的时候。我们的同义词系统可进行精密的查询修正,例如,我们的系统知道,单词“Dr”在查询 [Dr Zhivago] 时代表医生,但在 [Rodeo Dr] 中代表驾驶。一个用户查询 [back bumper repair] 时得到的结果是后保险杠修理。对于 [Ramstein ab],我们会自动查询 Ramstein 空军基地;输入 [b&b ab],我们会搜索加拿大阿尔伯塔的住宿加早餐旅馆。我们已经开发了能够理解差不多 100 种不同语言的这一级别的同义词查询,对此我引以为傲。

  概念识别是我们应用于搜索排序系统的另一项技术。识别查询中关键概念帮助我们提供更相关的搜索结果。例如,在我们的算法能够理解在 [new york times square church] 查询中,用户正在搜索时代广场上著名的教堂,而不是在纽约时报上搜索文章。我们不会仅仅停留在识别概念阶段;我们会进一步用正确概念强化查询,比如,有人查询 [PC and its impact on people],实际上是在查询计算机对社会的影响,或是有人输入 [rainforest instructional activities for vocabulary],实际上是搜寻雨林教案。我们的查询分析算法包含许多诸如此类的技术,而且,我们在全球范围为差不多每一种语言上提供这一服务。

  理解用户:我们努力理解用户的意图,目的在于反馈人们真正想要的,而不仅仅是他们在查询中所说的。这项工作开始于一项全球范围的本土化系统,在这个系统中增加了我们的先进的个性化技术,以及我们在理解用户方面取得进步的几项技术,例如整合搜索。

  我们的明确的目标是“ 为全球用户提供相关性最强的本土搜索服务”,这反映在我们的本土化进程中。在不同国家输入同样的查询可能产生完全不同的搜索结果。一位用户在美国输入 [bank] 应该搜到美国的银行,而在英国的用户或许搜到银行授信额度或英国金融机构。在其他说英语的国家,比如澳大利亚、加拿大、新西兰、南非,对此查询的搜索结果应该是当地的金融机构。当人们在一些非英语国家如埃及、以色列、日本、俄国、沙特阿拉伯、瑞士输入这一查询时,事情就变得非常有趣了。同样,查询 [football] 在澳大利亚、英国、美国是指完全不同的体育项目。这些例子告诉我们如何正确获得一个同样的概念的本土化版本。不管怎样,同样的查询在不同国家会有完全不同的结果。举例说明,[Côte d'Or] 是法国的一个地理区——但是在邻近的讲法语的比利时,它却是一家很大的巧克力生产商的名字。同样地,我们给出了正确的搜索结果:-)。

  个性化是我们的搜索系统的另一个强项,即为各个用户定制搜索结果。在搜索时已经登录以及标记了网页历史记录的用户将得到比一般的谷歌搜索更贴近意图的结果。例如,一名大量查询足球相关搜索的用户输入 [giants] 时会得到更多与足球有关的搜索结果,而其他用户可能会得到与棒球队相关的搜索结果。同样,如果你倾向于一家特定的购物网站的信息,在你搜索商品时,你会更有可能得到来自这个网站的搜索结果。我们的调查显示,获得个性化搜索结果的用户会发现这些结果比非个性化搜索结果相关性更强。

  理解用户意图的另一个例子是查询 [div]。"div之家" 实际上中国W3C标准倡导及推广者。所以我们在搜索结果集中给出了div之家www.divhome.com的搜索结果。

  我们在整合搜索领域所做的工作也是我们如何解读用户意图,给予他们真正需要的结果的另一个例证。当有人搜索 [bangalore] 时,他们将不仅获得重要的页面,他们同样将获得一个班加罗尔的地图,一段展示街道生活的视频,城市交通等等——观看那段视频时,我几乎觉得自己就在那里:-)——在写作的时候,还会有有关班加罗尔的新闻以及相关的博客。

  最后让我简要介绍一下我们在搜索技术上的最新进展:跨语言信息检索。它允许用户首先搜索到非本国语言的信息,然后使用谷歌翻译技术将页面翻译过来,我们使得这些信息很容易获得。我把这一创新叫做:给我我想要的任何语言的答案。一个正在俄国搜索托尼•布莱尔个人传记的用户输入俄文 [Тони Блэр биография],在我们的英文搜索结果底端将显示:

  同样地,一个在埃及搜索迪斯尼电影歌曲的用户输入 [أغاني أفلام ديزني] 将获得在英文页面中的搜索结果。让我们兴奋的是,跨语言信息检索让我们离我们的目标更近,让我们能够组织全球信息,真正达到信息在世界范围内的互通与可用。

  我将继续展示我们为了尽可能地优化搜索排序系统而开发的的堪称艺术品的技术,但事实上,搜索还远不是一个已经解决的问题。许多谷歌查询仍然没有得到满意结果,而每一个这样的查询都是改进我们的排序系统的机会。我很自信,我们的团队已经开发了许多技术,我们将在不久的将来使我们的排序算法取得更大进步。

  我希望,我的关于谷歌搜索排序的两篇文章已经清楚地显示,我们为搜索而生,我们比以往更充满热情。我们为全球用户服务的热情是前所未有的。我们为自己在运转一个非常好的搜索排序系统而自豪,我们将每天努力工作,让它变得更好。

  本文转自http://www.divhome.com/SearchEngine/Google-optimize/google-paixu.html 转载请注明来源于DIV之家http://www.divhome.com

时间: 2024-10-22 11:52:28

谷歌排序背后的技术的相关文章

聊天机器人这么火,背后的技术你都知道吗?

近期,挚金资本联合狗尾草智能科技,承办了"人工智能 x 知识图谱"专项论坛.在本文中,深圳狗尾草智能科技公司CTO王昊奋对国内外聊天机器人的发展及背后的技术进行了梳理,也给出了自己对于未来聊天机器人发展趋势的理解.以下是演讲全文: 今天我们不是要讲宽泛的机器人,而是聚焦到更具体的聊天机器人.聊天机器人有些是偏软件的,也有些是软硬结合的.在这里,我们梳理一下聊天机器人技术的发展以及我们的思考.基于这些思考,我们又是如何应用在产品中,并怎样发现一些新的挑战和应对时的一些心得. 1.业界几种

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是

聊一聊双十一背后的技术 - 分词和搜索

双十一背后的技术系列文章 <聊一聊双十一背后的技术 - 物流, 动态路径规划> <聊一聊双十一背后的技术 - 分词和搜索> <聊一聊双十一背后的技术 - 强奸式秒杀技术实现> <聊一聊双十一背后的技术 - 毫秒分词算啥, 试试正则和相似度> 云栖聚能聊 - 聊一聊双十一背后的数据库技术 标签 PostgreSQL , 分词 , 全文索引 , rum , 搜索引擎 , 双十一 , tsvector , tsquery 背景 2016双十一刚过,大伙还在忙着收快

无人驾驶背后的技术 - PostGIS点云(pointcloud)应用 - 2

标签 PostgreSQL , PostGIS , box , grid , pointcloud , pgpointcloud , point聚合 , KNN , 自动驾驶 , 自动配送 , 无人驾驶 , 机器人配送 , 物流 , 无用功 背景 无人驾驶.配送机器人的业务背景,方案设计请参考: <无人驾驶背后的技术 - PostGIS点云(pointcloud)应用> 本文针对以上文章,补充一些新鲜内容. 一.transfer table消除索引build.格式检查等无用功 在服务端存储了所

《中国人工智能学会通讯》——1.28 智能助手背后的技术

1.28 智能助手背后的技术 呈现在人们眼前的智能助手几乎都是"小而美"的,但其背后却是一个十分复杂的系统,需要多种技术的集成和联动.本文将智能助手背后的技术归为四类,分别是需求理解技术,需求满足技术,推荐引导技术,以及交互技术.接下来,将分别介绍这四大类所涵盖的具体内容. 需求理解技术 准确理解用户需求是智能助手提供服务的基本前提.对于智能助手,人们更倾向于使用自然语言句子来表达需求,而非简单的关键词,这给需求理解增大了难度.这里所说的需求理解是一系列处理技术的总称,包括基本的分词.

【双11背后的技术】Weex 双11会场大规模应用的秒开实战和稳定性保障

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:鬼道  前言 Native 开发的诸多亮点中,流畅体验和系统调用是最多被提及的.流畅体验体现在页面滚动/动画的流畅性,背后是更好的内存管理和更接近原生的性能:同时又是 Web 的痛点:资源首次下载.长页面内存溢出和滚动性能.动画性能.传统 web 性能(如JS执行效率).Native 有丰富的系统调用能力,而 Web 痛点在于:W3C 标准

【双11背后的技术】双11晚会背后的技术

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:邵雍   回顾2015年在鸟巢举行的第一届双11晚会,我们可以称之为"全民互动"的晚会.因为不止是现场的几千位观众,全国所有在电视机面前的观众朋友,都可以拿起手机,打开天猫客户端或淘宝客户端,参与到晚会现场的各个明星互动游戏中来,进行红黑押宝,获胜的人,还能抢到一元商品. 而刚刚过去的,在深圳大运中心的2016第二届双1

【双11背后的技术】AliCloudDB——双11商家后台数据库的基石

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:玄惭 前言 2016年天猫双11购物狂欢节已经完美落下帷幕,千亿成交的背后,作为整个天猫商家后台数据库的基石,AliCloudDB是如何保障在零点洪峰来临时候稳定.安全和顺畅?如此庞大规模的数据库实例集群又是怎样一步步成长起来的?AliCloudDB团队核心老司机玄惭,为你带来,双11是这样用云的姿势....  1. 弹性扩容 多数用户在双

谷歌公司利用机器学习技术帮助市场营销人员改善广告追踪能力与效果

这是每一家企业在市场营销方面面临着的重要问题.而在日前于旧金山举办的Marketing Next大会上,谷歌公司制定了新的目标,即通过一项新服务帮助营销人员了解其广告及其它营销性举措到底效果如何. 此次发布的新服务被谷歌公司命名为Google Attribution.尽管名称平淡无奇,但此项新服务承诺以更理想的方式对个人电脑.智能手机乃至从搜索到实体店面访问在内的多渠道状况进行追踪,从而准确把握宣传活动的具体成效. 作为一项免费服务,Attribtuion背后的基本思路在于着眼特定产品的买家在决