9.25 搜索引擎点击模型综述
在这个信息爆炸的时代,搜索引擎已成为人们在互联网的数据海洋中遨游不可或缺的工具。无论是查找信息、获取资源,还是寻求帮助、发现机遇,都离不开搜索引擎的指引与参考。可以说,搜索引擎已经成为了互联网中的“基础设施”。根据中国互联网络中心(CNNIC)发布的中国互联网络发展状况统计报告显示,截止 2016 年 1 月 , 已有82.3% 的互联网用户使用搜索引擎 , 在互联网网络应用中排名第二 ; 而在移动端也有 77.1% 的用户使用移动端搜索引擎 , 在移动应用中排名第三。由此可见 , 搜索引擎已成为大多数互联网用户必不可少的应用之一 , 因此搜索引擎所提供的搜索结果质量对于用户体验有着极为重要的影响。
在搜索引擎对于不同搜索结果的质量(结果相关性)进行判断(预测)时,最为传统的方法是基于结果内容的相关性预测方法[1] ,该方法通过对搜索时用户提交的查询词以及所有结果的文本内容进行处理,从中提取出有效的衡量结果相关性的特征(例如 TF-IDF [2] 、BM25 [3] 等),从而利用上述特征或指标来衡量不同搜索结果与查询词之间的相关性,进而对所有结果进行筛选和排序。这些方法为搜索引擎系统快速并准确地从大量结果中筛选出符合用户真实搜索需求的结果列表,提供了最为基础有效的解决方案,成为了当前搜索引擎架构中基础的模块之一。然而上述方法并不能完美解决搜索结果相关性预测及排序等问题,例如 Lv et al [4] 指出,当结果内容信息很长时,BM25 指标会变得不能正确衡量结果的相关性。因此,除了结果的内容信息外,搜索引擎有必要引入更多的信息去更好地衡量搜索结果的相关性,从而为搜索用户提供更好的结果排序。
由于互联网网页中往往包含大量超链接,这些超链接使互联网网页得以互相连接,从而组成了不同的网络结构。因此,一个简单的推断是在该网络结构中,不同位置的节点其具有的重要性程度可能不同。所以第二种方法是利用互联网网页的链接结构推断不同结果的重要性[5] 、可靠性 [6]等,从而对不同结果的相关性有更好的估计。上述方法为搜索引擎结果相关性估计和结果排序起到了进一步改进作用,同样成为了搜索引擎的重要模块之一。
除了上述方法外,近年来,利用互联网群体智慧[7]来改善搜索结果相关性估计[8]的方法开始受到关注,并成为了另一种提升搜索引擎结果相关性估计和改进搜索引擎排序的重要方法。由于每天都有大量的用户与搜索引擎进行交互,这些搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息(主要是点击行为信息),也是搜索引擎改进结果排序的重要影响因素。直观举例来说,如果很多的搜索用户在搜索同一个查询时点击了某个搜索结果,那么该搜索结果就有可能是一个相关的结果。由于每天搜索引擎都可以收集到海量的用户隐性反馈信息,如果能从这些信息中挖掘出用户对于搜索结果的真实相关性反馈,那么就可以利用上述信息对搜索引擎的相关性预测进行更好的改进。
然而,用户在搜索过程中的点击行为可能会受到多种因素的影响。研究表明,由于搜索用户受到结果位置[9-10] 、展现形式 [11] 、可信度 [12]等各种因素的影响,将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。针对这一问题,研究人员提出了构建描述用户点击行为的点击模型(Click Model) [13-15] 来尝试解决上述问题。点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为发生过程的模型,不同的模型会尝试描述用户在搜索过程中受到的不同因素影响,以及这些影响之间的相互关联(例如不同的点击模型会对用户检验不同位置的搜索结果的概率有不同的估计,进而尝试去除结果展现位置等因素对用户行为的偏置性影响),最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度,从而更为准确地估计结果的真实相关性和新页面下用户的点击概率,达到更好利用隐性反馈信息的目的。
作为一种用户交互信息的有效利用方法,点击模型在学术界得到了充分关注,并在工业界得到了广泛应用。传统的点击模型主要针对于传统同质化的搜索页面(搜索页面中的结果均采用相近的文本形式展现,结果之间除了文字内容不同外并没有明显的展现形式差异)进行设计。随着 Web2.0 时代的到来,富媒体展现形式被越来越多地应用于搜索交互界面,搜索结果也变得越来越异质化[16] ,这些变化使用户的检验行为(注意力分布偏好、浏览顺序等)发生了明显的改变[17] ,传统的点击模型已经不能正确描述用户的真实行为,相应的排序方法也难以取得较优效果。因此研究人员开始提出针对于垂直搜索结果的点击模型,以及针对非顺序检验行为的点击模型。
本文主要根据点击模型的发展历程介绍相应的主要点击模型,首先是传统的基于位置的点击模型介绍;然后介绍针对于垂直搜索结果的点击模型;最后介绍描述非顺序浏览行为的点击模型。