《中国人工智能学会通讯》——6.11 链接数据技术

6.11 链接数据技术

数据链接的建立涉及多个方面,包括数据资源标识、资源描述模型、词汇与本体定义、链接数据格式、自动链接抽取、链接预测等。

资源标识
资源标识是构建数据链接的第一步。LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识。但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源。要维护不同数据集之间的 URI 链接,将带来巨大的工作量。

Schema.org 鼓励采用一种称为基于描述的引用(Reference by Description)的方式实现资源的标识和相互引用[18] 。Guha 认为人们之间交流信息时,通常基于实体的描述而非 ID 来区分实体。例如,当你介绍一个人时,常用“这位是著名作家张三”和“那位是某公司 CEO 张三”等来进行区分,而不是通过一个 ID 来介绍。因此,Schema.org 只要求少量的资源拥有 URIs,并鼓励数据发布者为资源增加尽可能多的额外描述。这些描述可以进一步被各种自动实体消解和实体对齐技术所使用,来实现更加自动的资源引用和数据链接[21] 。

资源描述框架
建立数据链接需要有统一的数据描述模型。语义网设计了自己的基本数据模型,称为 RDF(Resource Description Framework)。RDF 本质上是有向标记图(Directed Labeled Graph)。关于资源的任何一项描述都简化为一个包含主谓宾(Subject, Predicate, Object)的三元组陈述。每个 Predicate 为资源增加一条属性描述或链接至其他资源[22] 。

在很多具体的实践中,RDF 的设计并非全部可取,但其强调以图模型为基础,以数据链接为中心,属性不必从属于特定类,允许多方动态新增描述等,都是针对互联网开放性的合理设计。

词汇与本体定义
描述数据需要词汇和术语。语义网借鉴了传统知识表示,如框架系统、描述逻辑等方法,制定了OWL 等本体描述语言[23] 。OWL 在生物医学等对知识表示能力要求高的特定领域有较多的应用,但在构建开放域知识库方面,其众多的表达构件在一个开放的互联网环境下面,难以迅速扩展。

Schema.org 是公共词汇标准化方面较为成功的实践。Schema.org遵循“增量复杂”(IncrementalComplexity)和自底向上的控制原则。通常从一个最简单的词汇集开始,在各网站得到应用后,再根据需求逐步扩增表达能力。

链接数据格式
在 链 接 数 据 的 发 布 格 式 方 面, 常 用 的 包括 RDFa(RDF in Attributes) [13] 、JSON-LD(JavaScript Object Notation for Linked Data) [14]和 HTML Microdata [15] 。 RDFa 用于在 XHTML 文档嵌入语义标签,这些语义标签可以被抽取成 RDF三元组描述,用于后续处理。JSON-LD 则适合于在基于 Javascript 插件的网页中嵌入语义和链接数据。Microdata 微数据作为 HTML5 的一部分,也可用来在网页中增加语义标注,其设计比 RDFa 更为简化。谷歌知识图谱同时支持这三种链接数据发布格式。

自动链接抽取
平行于语义网的发展,怎样从海量 Web 文本中自动提取结构化数据一直是自然语言处理领域关注的重点,较为有代表性的工作如 NELL [24] 、DeepDive [25] 、OpenIE [26] 。文本也是扩展和补全当前很多知识图谱的主要来源之一[27-29] 。从主要技术思路上区分,可分为基于先验本体和基于语法结构两种主要的不同方法。第一种方法需要预先设定抽取的关系和实体类型,再迭加远监督(Distant Supervision) [30] 或弱监督的方法,采用已有的数据链接关系作为标记数据,典型的如 Deepdive [24] 、YAGO [31] 以及各种参加 TAC-KBP 的属性框填充竞赛的系统[32]等。另外一种方法通常被称为开放信息抽取(Open InformationExtraction)。这种方法主要基于句子和语法结构 的 分 析, 把 句 子 化 简 为 三 元组,比较典型的工作如 Ollie [33]和 Standford 结 合 自 然 逻 辑 的OpenIE [26] 等。

链接预测
链接预测是指基于已有的链接关系来预测发现新的链接关系。这也是当前知识图谱技术研究的一个热点。根据所使用技术方法的不同,可以分为图特征模型、表示学习和统计关系学习三类。

基于图特征模型的链接预测通过图结构的相似性来预测节点间可能存在的关系。从测量结构相似度时所使用的指标出发,传统的链接预测又可以被分为局部方法、准局部方法和全局方法[34] 。局部方法经常会使用邻居节点的相似性[35] ,全局方法通常会考虑实体间所有的路径来作为指标[36] ,而准局部方法事实上是在上述两者之间作了一个折衷,兼顾预测的准确性和计算的复杂度。由于知识图谱需要处理的是有类型的语义链接(typed links),知识图谱的链接预测比传统更加复杂。目前在针对知识图谱的链接预测中比较流行的图特征模型包括归纳逻辑编程(如 AMIE [37] )、路径排序算法 PRA(随机游走算法的扩展) [38] 和子图特征抽取算法SFE [39] 等。

表示学习源于机器学习领域,它是对数据的一种特定表达,成功地应用在自然语言处理、语音识别等多个方面[40] 。当前,表示学习方法被广泛地应用于知识图谱的链接预测中。表示学习旨将链接数据中的实体和关系通过学习过程表示为实值向量。其过程通常包含实值向量的初始化、学习目标的定义、模型参数和实值向量的学习等步骤。主要的方法包括双线性模型、多层感知机模型、张量神经网络模型和距离模型等,如表 1 所示,其中 e i ,e j ,r k 分别代表两个实体和一个关系的实体向量表示。

表 1 基于表示学习的链接预测方法

事实上,图特征模型通常和表示学习方法一起使用,起到相互补充的作用,前者可以更好地表达局部的图模式,而后者能学习到全局的模式,典型工作如 PTransE [51] 和各种组合模型等[52-53] 。

基于统计关系学习的链接预测旨在同时利用链接数据中的统计信息和逻辑依赖性来预测实体间的关系。马尔可夫随机域(MRF)是一种传统的用于链接关系学习的概率图模型[54] ,而概率软逻辑(PSL)是最近被广泛研究的可以用来预测实体关系的统计关系学习方法[55] 。前者通过将模板应用到实体集合以生成马尔可夫随机域的图,最终实现实体关系的推理;后者融合统计信息和逻辑依赖,即将链接数据中对实体的本体限制转化为有权重的规则,并能通过一种凸优化方法有效地解决其中的概率推理,解决传统的马尔可夫逻辑网络(MLN)所遇到的可扩展性问题。

时间: 2024-09-13 03:24:55

《中国人工智能学会通讯》——6.11 链接数据技术的相关文章

《中国人工智能学会通讯》——4.28 数据挖掘技术在电子数据取证中的应用

4.28 数据挖掘技术在电子数据取证中的应用 电子数据取证过程中会获得大量的证据数据,主要来源于三个方面,一是计算机主机系统方面的证据,主要包括来自硬盘.内存.外设中的数据:二是来自网络方面的证据,主要包括实时获取的网络通信数据流网络设备上产生的记录,以及网络安全设备上的日志和登录日志:三是来自其他数字设备的证据,如手机.手持电子设备.这些可疑数据的数据量非常庞大并且不断更新,面对这样庞大的.变化的数据,单纯依靠技术人员的经验去分析.去获取有用的证据是不现实的,需要借助工具从海量的数据中获取有用

《中国人工智能学会通讯》——11.40 面向知识库的实体链接

11.40 面向知识库的实体链接 近年来,万维网上的数据量飞速增长,万维网已经成为世界上最大.最丰富的数据仓库之一.万维网上的数据大多是以自然语言的形式而存在,比如新闻网页.个人主页.微博.论坛等.自然语言本身具有很高的歧义性,特别是对于那些在数据中经常出现的实体来说.一个实体可能拥有多个不同的名字,一个名字也可能指代多个不同的实体. 另一方面,由于知识库在信息检索.问答系统等领域的关键作用,人们渐渐意识到知识库构建对于未来万维网的发展至关重要.并且随着知识共享社区(比如维基百科 .百度百科 )

《中国人工智能学会通讯》——11.46 微博中的实体链接技术

11.46 微博中的实体链接技术 近来微博已成为互联网用户越来越重要的信息来源,每天有数亿条微博被产生出来.将微博中出现的命名实体链接到知识库中的对应实体有助于微博用户兴趣点的发现,以及微博推荐等应用.由于微博文本本身短小.随意且低质的特点,微博中的实体链接任务更具挑战性.自然语言文本中的实体链接技术主要针对万维网中的新闻文章,它们的基本想法是利用文本的相似性和同一文档中实体的主题一致性来进行链接.然而由于单条微博中包含的信息量非常有限,使得这些方法对于微博中的实体链接任务不能取得很好的效果.我

《中国人工智能学会通讯》——11.47 领域文本中的实体链接技术

11.47 领域文本中的实体链接技术 除了通用知识库,我们还拥有很多领域知识库(如 DBLP 文献网络 .IMDb 电影网络).将领域文本中的命名实体链接到相应领域知识库,对领域文本的分析和领域知识库的扩充非常有帮助.目前主流的实体链接算法都是针对通用的维基百科或者由维基百科生成的知识库(如 YAGO),这些算法都依赖于与维基百科相关的特征,例如维基百科文章中的上下文文本信息.基于维基百科的相关度度量,以及维基百科的一些特殊结构(如排歧页面.跳转页面等).由于领域知识库并不具备这些特征,所以之前

《中国人工智能学会通讯》——11.45 万维网实体列表中的实体链接技术

11.45 万维网实体列表中的实体链接技术 互联网网页中包含大量的结构化实体列表,另外,一个万维网表格中的实体列也可以看作是万维网实体列表.一个万维网实体列表可能包含一些著名足球运动员的名字.一些美国畅销专辑名字或者一些著名艺术家名字.万维网实体列表中的每一项常常指代的是某些实体,该任务就是为万维网实体列表中的每一项找到其在知识库中的对应实体.该任务的输入只是一个万维网实体列表,而不包含上下文文本,但上下文文本在自然语言文本实体链接任务中是非常重要的依据,由此可以看出这个任务与自然语言文本中的实

《中国人工智能学会通讯》——11.43 研究内容

11.43 研究内容 基于前面对实体链接任务和其应用领域的介绍,可以看出实体链接任务是一项具有挑战性且非常有意义的基础研究工作.实体链接问题的解决对于知识库扩展.问答系统.信息提取.信息检索和内容分析等领域的发展具有巨大的促进作用.在这样的应用需求推动下,对随手可得的万维网数据中的实体进行有效.准确地链接显得尤为重要. 而万维网上的数据存在形式纷繁多样,有非结构化的自然语言文本(如新闻报道.博客文章等),有结构化的万维网实体列表或表格,有短小且低质的社交媒体微博文本,还有面向领域的领域文本(如计

《中国人工智能学会通讯》——11.41 相关工作

11.41 相关工作 接下来简单介绍一下与实体链接相关的工作.学术界在很多年前已经意识到了实体排歧问题,并且提出了很多算法来解决这个问题.在传统的实体指代消解问题[17–23]中不存在知识库,它的任务是将出现在同一个文档或者不同文档中指代同一实体的实体名字识别出来,并将它们聚在一个类当中.而近年来出现的大量知识库以及知识库扩展的需求使得实体链接技术受到广泛的关注.与传统的实体指代消解问题相比,实体链接需要为在文本中发现的实体名字找到其在知识库中的对应实体,同时知识库中所拥有的关于实体的相关信息(

《中国人工智能学会通讯》——11.42 相关应用

11.42 相关应用 正如前面所介绍的,实体链接任务是很多应用领域的重要基础工作,例如知识库扩展和问答系统.接下来将介绍实体链接的其他重要应用领域. 信息抽取通过信息抽取技术发现的命名实体和实体关系通常都是有歧义的,将它们链接到知识库是对它们消歧和进一步利用的重要步骤.Lin et al [31] 提出一种有效的实体链接技术,将从万维网中提取出来的1 500 万个实体关系中的实体链接到维基百科.他们提出,对这些提取出来的关系进行实体链接有利于对这些关系进行语义类型标注,从而便于将它们与其它的数据

《中国人工智能学会通讯》——11.48 结束语

11.48 结束语 本文提出了针对万维网上异构数据的各种实体链接技术,虽然相比主流方法都获得了更高的准确率,但是这些技术在实际应用中还面临着一些挑战.在今后的研究工作中,可以对以下问题做进一步探索.目前论文中的方法评测主要关注实体链接的准确率,我们认为实体链接可以在线下进行运算,而较少关注实体链接的效率.然而,对于实时的大规模应用来说,算法的效率是必须要考虑的问题.因此,开发出快速的同时具有高准确率的实体链接技术是下一步需要解决的问题. 另外,构建和扩展领域知识库的强烈需求使得面向领域的实体链接

《中国人工智能学会通讯》——11.6 主题敏感影响者的挖掘

11.6 主题敏感影响者的挖掘 社会媒体网络的出现和快速流行为用户提供了一个创造和分享兴趣内容的交互分享平台.最近,社会影响力分析已吸引了研究者充分的兴趣.相当量的工作已进行来验证影响力的存在[6] ,或者在同质网络中的影响力建模[7] .但是,鲜有工作研究包含多模态兴趣内容的社交网络中主题敏感影响力量化的问题.本文探究在基于兴趣的社会媒体网络中的主题敏感影响者挖掘(Topic-Sensitive InfluencerMining, TSIM)的问题.TSIM 旨在挖掘网络中主题特定的有影响力的