《中国人工智能学会通讯》——9.25 搜索引擎点击模型综述

9.25 搜索引擎点击模型综述

在这个信息爆炸的时代,搜索引擎已成为人们在互联网的数据海洋中遨游不可或缺的工具。无论是查找信息、获取资源,还是寻求帮助、发现机遇,都离不开搜索引擎的指引与参考。可以说,搜索引擎已经成为了互联网中的“基础设施”。根据中国互联网络中心(CNNIC)发布的中国互联网络发展状况统计报告显示,截止 2016 年 1 月 , 已有82.3% 的互联网用户使用搜索引擎 , 在互联网网络应用中排名第二 ; 而在移动端也有 77.1% 的用户使用移动端搜索引擎 , 在移动应用中排名第三。由此可见 , 搜索引擎已成为大多数互联网用户必不可少的应用之一 , 因此搜索引擎所提供的搜索结果质量对于用户体验有着极为重要的影响。

在搜索引擎对于不同搜索结果的质量(结果相关性)进行判断(预测)时,最为传统的方法是基于结果内容的相关性预测方法[1] ,该方法通过对搜索时用户提交的查询词以及所有结果的文本内容进行处理,从中提取出有效的衡量结果相关性的特征(例如 TF-IDF [2] 、BM25 [3] 等),从而利用上述特征或指标来衡量不同搜索结果与查询词之间的相关性,进而对所有结果进行筛选和排序。这些方法为搜索引擎系统快速并准确地从大量结果中筛选出符合用户真实搜索需求的结果列表,提供了最为基础有效的解决方案,成为了当前搜索引擎架构中基础的模块之一。然而上述方法并不能完美解决搜索结果相关性预测及排序等问题,例如 Lv et al [4] 指出,当结果内容信息很长时,BM25 指标会变得不能正确衡量结果的相关性。因此,除了结果的内容信息外,搜索引擎有必要引入更多的信息去更好地衡量搜索结果的相关性,从而为搜索用户提供更好的结果排序。

由于互联网网页中往往包含大量超链接,这些超链接使互联网网页得以互相连接,从而组成了不同的网络结构。因此,一个简单的推断是在该网络结构中,不同位置的节点其具有的重要性程度可能不同。所以第二种方法是利用互联网网页的链接结构推断不同结果的重要性[5] 、可靠性 [6]等,从而对不同结果的相关性有更好的估计。上述方法为搜索引擎结果相关性估计和结果排序起到了进一步改进作用,同样成为了搜索引擎的重要模块之一。

除了上述方法外,近年来,利用互联网群体智慧[7]来改善搜索结果相关性估计[8]的方法开始受到关注,并成为了另一种提升搜索引擎结果相关性估计和改进搜索引擎排序的重要方法。由于每天都有大量的用户与搜索引擎进行交互,这些搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息),也是搜索引擎改进结果排序的重要影响因素。直观举例来说,如果很多的搜索用户在搜索同一个查询时点击了某个搜索结果,那么该搜索结果就有可能是一个相关的结果。由于每天搜索引擎都可以收集到海量的用户隐性反馈信息,如果能从这些信息中挖掘出用户对于搜索结果的真实相关性反馈,那么就可以利用上述信息对搜索引擎的相关性预测进行更好的改进。

然而,用户在搜索过程中的点击行为可能会受到多种因素的影响。研究表明,由于搜索用户受到结果位置[9-10] 、展现形式 [11] 、可信度 [12]等各种因素的影响,将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。针对这一问题,研究人员提出了构建描述用户点击行为的点击模型(Click Model) [13-15] 来尝试解决上述问题。点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为发生过程的模型,不同的模型会尝试描述用户在搜索过程中受到的不同因素影响,以及这些影响之间的相互关联(例如不同的点击模型会对用户检验不同位置的搜索结果的概率有不同的估计,进而尝试去除结果展现位置等因素对用户行为的偏置性影响),最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度,从而更为准确地估计结果的真实相关性和新页面下用户的点击概率,达到更好利用隐性反馈信息的目的。

作为一种用户交互信息的有效利用方法,点击模型在学术界得到了充分关注,并在工业界得到了广泛应用。传统的点击模型主要针对于传统同质化的搜索页面(搜索页面中的结果均采用相近的文本形式展现,结果之间除了文字内容不同外并没有明显的展现形式差异)进行设计。随着 Web2.0 时代的到来,富媒体展现形式被越来越多地应用于搜索交互界面,搜索结果也变得越来越异质化[16] ,这些变化使用户的检验行为(注意力分布偏好、浏览顺序等)发生了明显的改变[17] ,传统的点击模型已经不能正确描述用户的真实行为,相应的排序方法也难以取得较优效果。因此研究人员开始提出针对于垂直搜索结果的点击模型,以及针对非顺序检验行为的点击模型。

本文主要根据点击模型的发展历程介绍相应的主要点击模型,首先是传统的基于位置的点击模型介绍;然后介绍针对于垂直搜索结果的点击模型;最后介绍描述非顺序浏览行为的点击模型。

时间: 2024-09-16 21:15:10

《中国人工智能学会通讯》——9.25 搜索引擎点击模型综述的相关文章

《中国人工智能学会通讯》——9.29 点击模型开源工具及数据集

9.29 点击模型开源工具及数据集 由于点击模型具有很强的实用性,因此很多搜索引擎公司都有部分模型的内部实现方案,而研究人员也针对点击模型开发了一系列的开源工具实现. ● ClickModelProject是一个基于 Python 的开源点击模型项目,本文中介绍的 DCM.UBM.DBN 等模型在该开源项目中均有实现. ● PyClick是一个基于 Python 的开源点击模型项目,本文中介绍的 FCM,VCM 等模型在该开源项目中均有实现. ● THUIRClick是一个基于 Python 的

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

《中国人工智能学会通讯》——11.77 特征学习模型在天文光谱识别中的 应用

11.77 特征学习模型在天文光谱识别中的 应用 随着新一代巡天观测.时域观测等天文项目的推进,当前的天文数据以"雪崩"之势增长[18] ,由此导致了天文数据自动挖掘方法研究的必要性和迫切性.国际上,近年来大规模图像巡天和大样本光谱巡天方面已经取得了长足的进展[19] ,特别是一系列光谱巡天计划的成功实施,使人们获得了空前丰富的恒星光谱资料,推动了天文学各个分支的蓬勃发展.恒星光谱,无论是连续谱还是线谱,差异极大.恒星光谱主要取决于恒星的物理性质和化学组成.因此,恒星光谱类型的差异反映

《中国人工智能学会通讯》——2.13 医疗服务机器人综述

2.13 医疗服务机器人综述 医疗服务机器人是指用于医院.诊所的医疗或辅助医疗以及健康服务等方面的机器人,主要用于患者的救援.医疗.康复或健康信息服务,是一种智能型服务机器人.随着我国进入老龄化,医疗.护理和康复的需求不断增加,同时由于人们对生活品质追求的提高,使得医疗不管在质上还是量上都要满足更高水准得要求.另一方面,医护人力相对缺乏,医疗及健康服务机器人具有巨大的发展潜力. 根据功能和用途的不同,本文着重从康复机器人.手术机器人和健康管理机器人三个方面进行综述.

《中国人工智能学会通讯》——7.26 体积元像素模型的估计和验证

7.26 体积元像素模型的估计和验证 在体积元建模的过程中,首先从刺激中提取感兴趣的特征,随后使用回归的方法来确定在每个体积元中,不同的特征是如何影响全脑血氧浓度的.我们使用词向量空间来确定故事中出现的每个单词的语义特征.我们选取了985个常见的英语单词(如"above"."worry"."mother"等词汇)作为基准词汇(即 985 维语义特征),在大规模的英语语料库中,通过计算每个单词和基准词汇的正则化共现度(normalized co-o

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人