《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究

12.32 基于众包的知识库补全研究

近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点。一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] 、NELL [2] 、DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] 、谷歌公 司 的 Knowledge Graph [6] 、Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] 。这些知识库包含了数以亿计的真实实体及关系,覆盖了形形色色的领域,提供了一种“机器可读”(machine-readable)的对现实世界的刻画与建模方式。因其良好的特性,大规模知识库得到了广泛的应用,如支持语义搜索[6] 、发现软件错误配置 [9] 、病人病历挖掘[10]等。

尽管体量巨大,现有知识库对现实世界实体与关系的覆盖率还远未达到令人满意的程度。以当前规模最大的开源知识库 Freebase 为例,超过 70%的人没有“出生地”信息;约 75% 的人的“国籍”属性缺失[11] 。以医疗领域最大的知识库UMLS为例,许多医学实体之间的关联,如糖尿病与其治疗药物之间的关联关系存在缺失[10] 。这些信息缺失严重地影响了用户对知识库系统的使用。

因此,有关知识库补全的研究在近些年得到了学术界与工业界的广泛关注。现有的研究可以分为两类,第一类是基于知识融合,从多个数据源抽取并集成知识元组[4,11-15] ,第二类是基于知识推理,现有工作使用了不同的策略,包括深度学习进行推理[16-17] 、借助搜索引擎 [18-19] 、学习实体及关系的语言表示模型[20] 。然而,现有方法在解决知识数据纷乱复杂、异质性强的核心挑战时存在局限性,补全效果还远未达到令人满意的程度。

同时,现有工作忽略了人在知识库补全中潜在而巨大的能力。首先,人擅长于消解语义的异质性,如能够将不同数据源中表示不同的同一实体(如苹果手机与 iPhone)或同一关系(如居住城市与所在地)有效地链接起来;其次,人能够对知识推理规则做出指导,如判断哪些知识对判断姚明的国籍有用(如出生地、奥运会代表队),以及哪些无用(如访问地)。如果能够在知识库补全中引入人的计算能力,可以大大提升补全效果。

作为一种新型群体计算模式,众包为知识库补全过程中大规模引入人的计算能力提供了机会。众包最显著的特点是将复杂计算问题分发给大量的人群(称为众包工人)进行分布式求解,充分利用人的认知、收集与推理能力参与计算,成功地解决了很多复杂的任务(如实体识别、图像标注等),取得了明显优于传统计算方法的效果,体现出了巨大的应用价值。因其良好的特性,众包在近些年取得了国内外学术界和工业界的广泛关注,在多个领域得到了广泛而深入的研究,包括图像 / 视频识别与搜索[21-22] 、信息检索 [23-25] 、数据清洗 [26-28] 、空间众包[29-30]等。然而,尽管有部分工作探讨了众包对知识库构建[31-32]可能的作用,截止到目前系统化的众包知识库补全研究还比较欠缺。

针对现有研究的局限性,本文提出研究基于众包的知识库补全技术:利用众包平台带来的众包群体计算能力,有效地解决知识库补全中的语义异质性、推理复杂性等难题,从而构建覆盖更全质量更高的知识库。本文重点探讨利用众包进行知识库补全的三方面挑战,并给出解决方案:① 众包知识库补全的计算模型。知识库补全远比传统的众包任务(如图片标注、实体识别)复杂,因此需要将这一复杂工作分解成细粒度的众包任务,以分发给大量众包工人进行求解。针对这一挑战,本文抽象出了三类基本的众包操作,即知识标注、知识链接和规则判断。② 众包知识库补全的质量控制。由于众包任务是分发给未知人群进行求解的,质量控制一直是众包研究中十分重要的课题。知识库补全又给质量控制带来了新的挑战——需要工人有一定的领域背景知识,才能正确完成任务。为此,本文介绍了自适应众包任务分配技术,估计工人在不同知识领域的准确率,进而将任务分配给所在领域的“专家”,即准确率更高的工人。③ 众包知识库补全的成本控制。众包并非免费,工人回答问题需要支付一定的报酬。然而,知识库往往规模巨大,简单利用众包解决知识库补全的所有任务会引入难以承受的金钱开销。针对这一挑战,本文介绍了众包机器协同的知识库补全技术,在一定预算约束下,选择最有“收益”的任务进行众包,并混合机器计算的结果,以期提升知识库补全的整体效果。

本文的组织如下:第 2 章将给出基于众包知识库补全研究的概览;第 3 章和第 4 章分别介绍质量控制和成本控制;第 5 章总结相关工作;第 6 章对全文做出总结并探讨可能的挑战性问题。

时间: 2024-09-13 14:46:14

《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究的相关文章

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

《中国人工智能学会通讯》——8.35 软件工程中的演化计算研究

8.35 软件工程中的演化计算研究 演化计算(Evolutionary Computation)是通过模拟生物进化过程与机制来求解问题的自组织.自适应的人工智能技术,在模式识别.机械工程.电气工程.生物学等众多领域都获得成功[1-2] .近年来,演化计算在软件工程领域也获得了广泛应用,形成了新的学科交叉方向--基于搜索的软件工程(SBSE,Search-Based SoftwareEngineering). 2001 年,Mark et al [3] 首次提出了"基于搜索的软件工程"的

《中国人工智能学会通讯》——3.25 康复机器人的人机交互控制研究综述

3.25 康复机器人的人机交互控制研究综述 中风是一种急性的脑血管疾病,能够造成永久性的大脑神经损伤,发病规律通常难以预测,致残率一直居高不下.中风幸存者往往出现偏瘫.截瘫等后遗症,严重影响患者及其家庭日常生活,带来极大的经济压力和精神痛苦.卫生部的统计数据显示,截止到 2012 年底,我国中风标化患病率约为1.82 %,40 岁以上的罹患人群高达 1 036 万人,其中 65 岁以下人群约占 50 %,呈年轻化趋势[1] .根据第二次全国残疾人抽样调查[2]和第六次全国人口普查的数据[3]推算

《中国人工智能学会通讯》——1.31 深度学习 在自然语言处理研究上的进展

1.31 深度学习 在自然语言处理研究上的进展 近年来,深度学习在人工智能的多个子领域都取得了显著的进展.在自然语言处理领域,虽然深度学习方法也收到越来越多的关注,在很多任务上也取得了一定效果,但是并没有其他领域那么显著.传统的主流自然语言处理方法是基于统计机器学习的方法,所使用的特征大多数是基于 onehot 向量表示的各种组合特征.这个特征表示方式会导致特征空间非常大,但也带来一个优点.就是在非常高维的特征空间中,很多任务上都是近似线性可分的.因此,在很多任务上,使用线性分类器就是可以取得比

《中国人工智能学会通讯》——3.6 跨网络链接预测的研究

3.6 跨网络链接预测的研究 在线社交网络已取得飞速发展,众多网站,如Facebook(脸书).Twitter 以及国内的新浪微博.人人网.腾讯网等迅速崛起.其中,Facebook 的用户数已经达到14亿,成为世界人口最多的"国家",这些用户每月花在 Facebook 上的时间超过 6.4 亿分钟:Twitter 用户数也达到 6.4 亿.微信和微博是国内在线社交网络的两个代表,用户数也分别达到5.4 亿和 2.4 亿:阿里巴巴在双 11 节创下 24 小时912 亿元的成交额(见表

《中国人工智能学会通讯》——12.42 总结

12.42 总结 本文介绍了基于众包的知识库补全技术.首先介绍了众包的计算模型,归纳了三类知识补全任务,即知识标注.知识链接和规则判断:其次,介绍了自适应的任务分配技术以解决众包知识库补全的质量控制问题:最后,介绍了众包机器协同技术以解决众包知识库补全的成本控制问题.然而,需要说明的是,本文只是对众包知识库补全的初步解决,还有很多有挑战的问题需要研究.例如,如何建立统一的众包机器框架以解决三类知识补全任务,如何控制众包任务的延迟等.

《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

12.33 众包知识库补全方法概览 本章介绍众包知识库补全的方法概览,如图 1所示.其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库.Web 结构化数据等,提取知识数据,并将不同数据源的知识数据融合起来,以此补全知识库:其二,在融合的过程中有效地利用众包,通过众包模型细化出具体可供众包完成的任务,利用众包优化算法进行质量和成本的控制,以选择出最优的任务发布到众包平台,如美国亚马逊公司的 Mechanical Turk ( 简称 MTurk) 1 . 知识抽取:提出利用多类数据源进

《中国人工智能学会通讯》——12.26 基于众包的数据提纯

12.26 基于众包的数据提纯 随着基于位置服务的蓬勃发展 , 随之出现了大量相关的空间文本数据.空间文本数据包括两方面信息,一个空间位置信息 , 通常与一个空间兴趣点相关,由一个经纬度坐标点表示数据所处的地理位置:一个文本信息,通常是由一组关键词构成的类似标签的文本描述.目前,这些关键词标签的生成方式主要通过人工添加与机器算法自动生成,由于来源广泛,这些生成的关键词质量参差不齐,很多质量难以保证.这些错误的数据在实际应用中将带给用户非常糟糕的体验,甚至误导用户,造成损失.比如当前很多基于位置的

《中国人工智能学会通讯》——12.37 众包机器协同的知识库补全技术

12.37 众包机器协同的知识库补全技术 本章介绍众包机器协同的知识库补全技术,用来进行有效的成本控制,基本思想包含两方面.第一,众包任务选择,即在一定预算约束下,选择最有"收益"的任务进行众包:第二,众包任务推理,即给定众包反馈的答案,利用机器算法推理未被众包解答的答案.首先会在 4.1 节介绍知识库补全的重要途径,知识库与 HTML 表格融合:进而在 4.2节给出基于众包机器协同进行融合的方法介绍.更详细的内容参见文献 [33].