中国人工智能学会通讯——互联网搜索技术的前沿探索 3 信息匹配与排序

3 信息匹配与排序

针对用户需求和网络数据的匹配,排序学习技术通过机器学习的方法进行结果排序,是当前搜索引擎主流的解决方案。然而,传统的排序学习技术依赖于对全集样本的多级标注和学习,标注可信度低且不能很好地体现检索中关注位置的特点;同时传统的排序学习技术建立在文档独立性假设之上,难以建模多样性等问题。我们提出了Top-k排序学习[9-10]和关系排序学习框架[11-12],突破了传统的基于分级标注体系,以及文档样本独立性假设,能更好地适用于互联网搜索。

3.1 Top-k排序学习框架

传统排序学习框架通常建立在绝对标注基础上,这种标注方式不仅误差大,而且未能体现排序关注Top结果的特点。针对该问题,我们从理论和实证两个角度分析了基于Top-k序的局部学习与基于全序的全局学习的关系,并从理论上证明了局部学习的损失函函数与全局学习的损失函数相比,是常用的检索评价指标基准损失的一个更近的上界(如图5所示),从而从优化评价指标基准损失的角度证明了Top-k学习能够得到更好的结果[9]。基于这一发现,我们提出了一个完整的Top-k排序学习框架[10],包括Top-k标注策略、Top-k排序模型和Top-k评价准则三部分。其中,Top-k的标注策略摒弃绝对标注,以相对标注方式为基础,使用堆排序的策略实现;Top-k排序模型将重点放在对前k个文档的学习上;Top-k评价准则更加符合用户重视前k个位置的搜索需求。该框架的优点包括:①采用相对标注方式,能以较低代价更加精确地反映排序相关性;②将有限的计算资源用在对相关性影响大的数据上学习,从而提升排序性能,更加符合排序的实际需求。Top-k排序学习框架[7]长文发表在ACM SIGIR 2012上,被评为当年唯一一篇最佳学生论文(Best Student Paper Award)。

3.2 关系排序学习框架

传统的排序学习模型通常假设文档之间是相互独立的,然而,在很多情况下独立性并不成立,例如要考虑排序结果的多样性,则必须考虑文档之间的相互关系。针对这个问题,我们提出了关系排序学习框架[11-12],打破了传统排序学习模型依赖的独立性假设,从而能够同时建模排序中的相关性和多样性目标。具体的,我们将打分函数建模为自身的相关性得分与基于已选文档的多样性得分,其中相关性得分与传统排序学习类似,多样性得分可以具体表达为一些文档关系特征的线性组合的形式。特别的,我们使用Plakettt-Luce模型来建模排序的顺序过程,从而能自然地捕捉到排序结果中文档的相互关系。实验证明,我们的方法对比与当前主流的多样性排序模型,可以取得显著的性能提升。

时间: 2025-01-15 04:21:12

中国人工智能学会通讯——互联网搜索技术的前沿探索 3 信息匹配与排序的相关文章

中国人工智能学会通讯——文字识别技术现状、挑战及机遇

今天非常高兴在这里作一个文字识别的技术现状.目前存在的问题及挑战.学术研究和商业应用机遇,以及未来技术发展趋势的报告. 首先简要谈一下人工智能.去年3月份,美国纽约时报采访了硅谷一些IT的大神们,请他们谈一下未来IT领域当中什么方向是潜在的爆发点,当时很多专家都不约而同谈到一个观点,就是人工智能很可能是未来IT领域的大事件.其实不仅仅是在工业界,在计算机学术界乃至整个科学界,人工智能过去几年都是非常热门的研究话题,举例来说,在过去两年,与深度学习和机器学习相关的文章已经有5次上了Nature或S

中国人工智能学会通讯——搜狗搜索:从搜索到问答 1.3 搜狗立知系统

1.3 搜狗立知系统 真实用户需求分布和电视节目中的问题分布差异非常大,我们根据用户向搜索引擎提交的真实查询请求,分析统计出用户问答类需求的分布情况(见表1). 我们将用户的问题类型分为三大类,第一类是事实类问题,例如"中国人口最多的城市是哪个",这类问题的答案是实体.数字或短语等,通常是10个字以内的简短文本,该类问题占搜索请求的比率为2%左右:第二类是分析类问题,例如"北京公积金提取流程",这类问题寻求的是某种事物的方法.原因或经验等,其答案需要数十到数百字,甚

中国人工智能学会通讯——机器人组件技术在智能制造系统中的应用

摘要:随着工业4.0时代的到来,如何将传统工厂改造成为个性化.网络化.柔性生产的智能制造系统成为了当前的研究热点.本文从智能制造系统和智能机器人系统的相似性出发,构建了基于机器人组件技术的智能制造系统,对智能制造系统中各个生产单元进行组件化技术封装,实现了生产组件之间的信息互联和即插即用,通过个性化订单要求对各生产组件在线任务规划,达到柔性生产的目标.此外用多异构机器人模拟各工位生产单位搭建了一个可以根据用户订单生产的小型智能制造实验平台,实验结果验证了本研究构建系统的可行性. 关键词:机器人组

中国人工智能学会通讯——智能机器人检测技术与平台

我觉得能够在这里跟大家分享我们的技术和成果,我个人感觉到非常光荣.今天跟大家分享的题目是<智能机器人检测技术与平台>.我今天跟大家汇报三个内容,讲一下技术和成果所呈现的平台建设的意义和它的实施情况,以及现在取得的一些成果. 关于意义,我简单说一句.因为这个论坛叫测评分论坛,所以说一下测评的对象是什么,是机器人.机器人实际上前面各位专家都分享了非常精彩的演讲,大家也都认知到了机器人其实是一个融合技术的产品.它实际上突破了我们传统的机器和电子,已经进入到了自动化技术.计算机技术,人工智能也是它很有

中国人工智能学会通讯——互联网到人工智能的第一座高峰

今天,我想提出一个题目让大家思考:从互联网时代发展到人工智能时代会出现哪些标志性的技术或产品?我们认为,智能驾驶将是这个时代变革中出现的第一个高峰. 互联网带来了人工智能的发展 曾经有这样一句话给我的感触很深--"时来天地皆同力,运去英雄不自由".意思就是一件事运势到来时,它的发展好像有天地同助,但是一件事的运势过去时,也会看到英雄落寞.为什么要说这句话?就是大家要看清这个时代.如果看不清时代的趋势,就好像是看着后视镜向前行车. 我觉得从本质上来说,互联网带来了三样东西.第一,解决了信

中国人工智能学会通讯——智能语音技术与产业应用展望 1.2 智能语音产业应用的现状和挑战

1.2 智能语音产业应用的现状和挑战 智能语音产业应用,基本上都是从语音控制.语音识别和语音交互作为切入点建立起来的,根据不同的定位和形态,目前主要分为以下4类. (1)APP类纯软语音应用.如Apple Siri和Microsoft Cortana等,在手机.平板或PC上以软件方式解决操作和聊天等问题,内置各种搜索.问答和对话服务. (2)软硬一体的语音交互应用.如智能音箱Amazon Echo.智能电视.智能语音空调等应用,语音成为主要交互手段,实现控制和相关内容服务获取. (3)垂直领域的

中国人工智能学会通讯——意识科学研究进展 1.6 脑神经网络信息大规模获取和脑计划

1.6 脑神经网络信息大规模获取和脑计划 进入 21 世纪以来,认知科学得到更为 充分的关注.在全球范围内启动了多个脑 科学的重大科研计划.2013 年,美国启动 脑计划:2014 年,欧盟也实施了人脑计划: 此外,日本.中国等国相继或正在进行国 家级的脑科研项目. 美国的脑计划称为 The Brain Research through Advancing Innovative Neurotechnologies ( 简称 BRAIN),它由美国国防部 (DARPA). 国家卫生研究院 (NIH

《中国人工智能学会通讯》——3.20 在线社会网络中的信息传播预测

3.20 在线社会网络中的信息传播预测 在线社会网络 (Online Social Network) 作为一种虚拟的社会平台,在人与人之间建立起具有社交.联系.分享和协助等功能的网络结构.近年来,互联网上涌现出的各种类型的社会网络深刻地改变了人们获取信息和相互沟通的方式.在线社会网络作为新的传播媒介,对传统媒体在信息传播中的主导地位产生了巨大的冲击.现阶段主要的在线社会网络包括微博.微信.博客.论坛及各类社交网站等.社会网络中的用户不仅仅是信息的受众,而且是信息的生产者和传播者.这种"去中心化&

《中国人工智能学会通讯》——3.3 基于网络结构和节点信息的网络表 示方法

3.3 基于网络结构和节点信息的网络表 示方法 除了节点之间的网络结构信息,网络节点本身往往存在丰富的信息.比如,在维基百科中的文章连接形成的信息网络中,每篇文章作为一个节点,节点包含了丰富的文本信息:在社交网络中(如图2 所示),每个用户节点包含用户产生的文本内容及用户属性(如性别.学校.地点.公司等). 这部分介绍两种同时考虑网络结构和节点信息的模型:TADW 和 Multi-facetedRepresentations.Multi-faceted Representations模型考虑与节