《中国人工智能学会通讯》——7.22 知识图谱应用的基本技术

7.22 知识图谱应用的基本技术

要想在文本应用中使用知识图谱,必不可少的先决步骤是将知识图谱和文本对应起来。常用方法有实体标注(Entity Linking)和实体搜索(EntitySearch)两种。

实体标注
实体标注的任务是自动标识出文本里出现的实体。比如在“卡耐基梅隆大学是位于宾州匹兹堡的一所私立研究性大学”这句话里,实体标注系统会识别出它提到了“卡耐基梅隆”、“宾夕法尼亚”、“匹兹堡”和“研究性大学”这些实体,然后把它们链接到知识图谱的结点上。

一般来说现在的实体标注可以分为两步。

实体识别:识别出文本中可能提到实体的短语,然后找出知识图谱中可能被提到的实体们,作为候选集。

消歧:对每个第一步识别出的短语,从它的候选实体集合中选择出其中最可能的实体进行标注。

第一步一般是靠文本和实体名字的精确匹配。主要的难点在于搜集更全和更准确的实体名字列表。第二步是当前实体标注的研究的重点,常见的方法是整体考虑文本中所有的候选实体,从中利用图模型等,选择最可能的实体进行链接。比较经常使用的信号包括实体的重要性、实体和文本的相似度,以及实体们相互的相似度等[3-4] 。

实体搜索
给 定 一 个 查 询 词 条, 实 体 搜 索(EntitySearch)直接从知识图谱中搜索相关的实体们。实体搜索目前还是一个相对新的研究领域。现今的做法主要先把实体的相关信息转化为文档,然后再使用传统的文本搜索方法。从实体到文档的转化一般通过一些人工规则,把各种文本属性,例如名字、文本描述、类别,以及相关实体的名字等放到文档中,再运用经典的文本搜索方法,比如说 Learningto Rank [5] 进行实体搜索。

时间: 2024-09-30 03:17:00

《中国人工智能学会通讯》——7.22 知识图谱应用的基本技术的相关文章

中国人工智能学会通讯——NLP与知识图谱的对接

两个问题 第一个问题是,为什么有人说"中文知 识图谱"?难道知识图谱是有国籍的吗?知 识是无国界的,这个当然是理论上的说法. 具体到一个国度,一个语言文化的大环境, 我们就会发现,事实上知识是有母语的. 理论依据就是所谓的语言相对论.可能大 家最近都看了<降临>,<降临>讲的就 是语言相对论.其要点为:一种思维方式. 一种文化是被它的语言.它所操的母语所 塑造.这是一个很重要的论断,也正因为它, 在英语世界里搞得非常好的一些技术,到 汉语的世界来,就有可能水土不

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.2 知识图谱构建

1.2 知识图谱构建 知识图谱由实体.实体的属性描述以及实体和实体之间的关联构成.尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难.在早期,知识图谱构建单纯依赖于人类专家.在这一方法中,知识图谱中的实体.实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2].CyC[3]等.WordNet定义了词汇之间的特定语义关系,包含约15万个词汇.20万个词汇语义对:CyC 包含了320万条人工定义的断言,涉及30万个概念.1.5万个谓词.随着互联网兴起,虽然依靠专家

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

1.3 KS-Studio 知识计算引擎 2012年,中国工程院启动建设"中国工程科技知识中心(CKCEST)"项目1.该项目是我国工程科技领域重要的大数据项目,旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策. 从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据.如何将无序繁杂的文本.图像.视频等原始的非结构化数据加工转化为有序

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.4 结束语

1.4 结束语 下一代人工智能(AI 2.0)将改变计算本身,将大数据转变为知识以支持人类社会作出更好决策[19].目前KS-Studio正在以知识图谱的自动构建为基础,不断丰富对于非结构化数据的知识加工处理的能力,并在不断探索将数据驱动方法与人类常识先验与隐式直觉有效结合起来的可能,我们认为只有如此才能实现可解释.更鲁棒和更通用的人工智能.

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.1 背景

1.1 背景 人工智能正再次成为国际国内学术界和产业界关注的热点,深度学习.迁移学习和增强学习等方法在诸多领域得到了成功应用.图灵早期对获得机器智能进行了一些设想[1],即通过添加遗传物质,辅以变异.进化.教育与自然选择等手段来使得"the child machine"成熟,并进一步去模仿成人的思维,这一设想至今仍具借鉴意义.与孩童成长类似,这个"child machine"首先需要对语言.文字.图像等非结构化数据所蕴含的(常识性)概念进行理解,来感知外界环境,这是

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智