《中国人工智能学会通讯》——6.6 实体消歧技术研究

6.6 实体消歧技术研究

实体是文本信息的重要承载,每一段有意义的文本都描述了一组实体及这些实体相互之间的关联和交互。识别并理解文本中的实体信息也就成为了自然语言理解的基础问题之一。

然而,文本中实体信息的理解存在两方面的挑战。首先,文本中的实体名通常具有歧义。例如,给定如下三个包含“苹果”的句子:

●  今 天 上 午 苹 果 由 乔 布 斯 发 布 了 新 一 代iPhone。
●  我早餐吃了一个苹果。
●  范冰冰在苹果中演的不错。

上述三个句子中的 “苹果”分别指向实体“苹果公司”、“水果苹果”及“电影苹果”。其次,实体的提及(mention)形式具有多样性,也就是人们可能会用不同的实体名来指向同一个实体。例如,在提到 IBM 公司时,人们可以使用 IBM、Big Blue 或 International Business MachinesCorporation 等不同名字。为解决实体名的歧义性和多样性问题,在许多应用中需要确定实体名所指向的真实世界实体,也就是实体消歧 (EntityDisambiguation)。图1展示了一个实体消歧的示例。
随着大数据时代的到来,实体消歧已经成为了许多重要应用和任务的基础技术,在越来越多的地方发挥重要作用,例如:

知识图谱的构建和补全。自然语言理解和类人智能推理一直是人工智能的长期目标之一。然而上述两项任务都依赖于海量的世界知识,也就是知识图谱的帮助。通过识别知识图谱中特定实体在文本中的出现,同时发现文本中知识图谱未覆盖的实体,实体消歧在知识图谱的构建和补全上都起到重要作用。

基于知识的自然语言理解。近年来越来越多的智能信息服务(如苹果的智能手机助手 SIRI 和IBM 的 Watson 智能问答系统)依赖于海量自然语言文本的分析和理解。然而在过去几十年里,绝大多数计算机自然语言处理技术仅利用了句子的表层词法和句法信息[1] 。与之相对的是,人类理解自然语言会利用到许多语言深层信息,甚至很多外部世界知识[2-3] 。通过建立文本中实体名与知识图谱中真实世界实体之间的关联,实体消歧可以有效地在自然语言理解过程中引入知识图谱中存储的大量世界知识,从而为基于知识的自然语言理解奠定基础。

当前实体消歧的主流技术是实体链接 (EntityLinking) 技术,下面分别从任务、系统、主要技术挑战、发展趋势等多个方面来介绍实体链接。

时间: 2024-09-20 10:29:46

《中国人工智能学会通讯》——6.6 实体消歧技术研究的相关文章

《中国人工智能学会通讯》——6.11 链接数据技术

6.11 链接数据技术 数据链接的建立涉及多个方面,包括数据资源标识.资源描述模型.词汇与本体定义.链接数据格式.自动链接抽取.链接预测等. 资源标识资源标识是构建数据链接的第一步.LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识.但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源.要维护不同数据集之间的 URI 链接,将带来巨大的工作量. Schema.org 鼓励采用一种称为

《中国人工智能学会通讯》——1.14 聊天机器人技术的研究进展

1.14 聊天机器人技术的研究进展 近年来,聊天机器人受到了学术界和工业界的广泛关注.一方面,聊天机器人是图灵测试的一种实现方式,而图灵测试是人工智能领域王冠上的明珠:另一方面,微软推出了基于情感计算的聊天机器人"小冰",百度推出了用于交互式搜索的聊天机器人"小度",进而推动了聊天机器人产品化的发展.聊天机器人系统可以看作是机器人产业与"互联网 +"的结合,符合国家的科研及产业化发展方向. 智能问答类的聊天机器人主要功能包括回答用户以自然语言形式

《中国人工智能学会通讯》——12.36 自适应任务分配技术

12.36 自适应任务分配技术 上节介绍的众包工人领域差异性对众包质量控制提出了两点新的要求,第一,能否估计众包工人在不同领域可能存在较大差异的准确率,并随着工人答题不断对估计进行更新:第二,能否根据估计的准确率,自适应地将任务分配给所属领域的"专家",即准确率高的工人.为了达成这两点要求,本文提出自适应的任务分配技术 iCrowd. 图 3 给出了自适应任务分配 iCrowd 技术框架.该技术针对一组众包任务(Microtasks)进行分配,通过众包平台(Crowdsourcing

《中国人工智能学会通讯》——1.5 智能问答技术

1.5 智能问答技术 从早期的数字图书馆.专家系统到如今的搜索引擎,人们一直致力于追求快速.准确的信息获取方法.目前,网络上的数据资源浩如烟海.错综复杂,而用户的信息需求又千变万化.千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能问答技术通过对数据的深度加工和组织管理,以更自然的交互方式满足用户更精确的信息需求. 智能问答技术可以追溯到计算机诞生初期的上世纪五六十年代,其中,代表性的系统包括 Baseball [1]和 Lu

《中国人工智能学会通讯》——11.51 基于幻象技术的异质人脸图像合成

11.51 基于幻象技术的异质人脸图像合成 基于稀疏特征选择的方法,以及现有的大部分算法在合成人脸图像时,多是采用线性组合的方式.线性组合,即线性加权平均,可以看作一低通滤波器,会过滤掉一些高频细节信息,如图2所示.此外,由于现有的异质人脸图像合成算法对图像分块多采用相邻块覆盖的方式,故在最后融合生成一整张人脸时需要将重叠区域平均,这也会带来一定的模糊效应,过滤掉部分高频细节信息. 那么是否能够通过学习输入测试照片到残差图像之间的映射关系来学习丢失的高频细节信息?而人脸幻象 (face hall

中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

1.4 早期行为识别方法 下面讨论如何让计算机去识别视频中 行为?首先,对于很多图像视频分类问 题来讲,最核心地找到一个好的表示. 下面我们先介绍如何利用非深度学习方 法.早期做图像识别时,利用兴趣点和 局部图像特征构建视频表示,这个方法可 以被推广到视频. 这是 IJCV2005 年发 表的一篇论文,提出了 Spatial-temporal interest points 时空兴趣点,像下图中运 动员当头顶到球的时候,在这个位置和 这个时刻会形成一个识别兴趣点. 行为中包含的运动信息不仅仅是某

《中国人工智能学会通讯》——5.7 飞机喷涂技术

5.7 飞机喷涂技术 在飞机制造的过程中,喷涂是飞行器表面处理的重要工艺.由于飞机的运动空间以及需适应多种恶劣环境下的飞行,飞机的表面性能要求非常高.飞机表面涂层对于飞机表面保护有着重要作用,有助于抵御极端天气的侵蚀,以及飞行过程中与空气摩擦产生的热量.在军用飞机领域,隐身涂层是先进隐身战机的关键,通过喷涂能吸收雷达波的特殊涂层,极大地减小了飞机的雷达反射面积,从而实现了隐身功能. 然而,当前航空制造领域中大部分的喷涂工艺主要还是靠人工喷涂完成.人工喷涂不仅劳动力成本高.生产效率低.劳动强度大,

《中国人工智能学会通讯》——1.21 聊天机器人在研究上的展望

1.21 聊天机器人在研究上的展望 随着聊天机器人研究的广泛开展,未来的研究将着眼于以下三方面. 1) 端到端:得益于深度学习技术的发展,已有学者开始着手研究端对端的对话系统[14] .即利用统一的模型代替序列化地执行自然语言理解.对话管理和自然语言生成的步骤,从用户的原始输入直接生成系统回复. 2) 从特定域到开放域:随着大数据时代的到来,一方面,使得开放域的聊天机器人系统得以获取丰富的对话数据用于训练:另一方面,在大数据上可以自动聚类或抽取对话行为等信息,避免繁杂的人工定义. 3) 更加关注

中国人工智能学会通讯——电子商务中的个性化推荐技术剖析 1. 基于人生阶段建模的商品推荐

1. 基于人生阶段建模的商品推荐 经典的基于协同过滤的推荐,通常结合用户近期行为,给用户推送已知范围内的商品.随着用户对推荐系统和产品期望的提高,也需要向其呈现部分他们需要,但自己尚不清楚的领域的产品.用户的人生阶段建模及基于它的推荐算法就是针对这类问题研发的.它利用半监督马尔可夫建模技术,利用少量的标注数据,根据用户有行为的类目,去精准预测用户所处的人生阶段,以提供当前或未来所需要的商品.详细算法见KDD'15上我们发表的文章"Life-stage Prediction for Product