12.32 基于众包的知识库补全研究
近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点。一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] 、NELL [2] 、DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] 、谷歌公 司 的 Knowledge Graph [6] 、Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] 。这些知识库包含了数以亿计的真实实体及关系,覆盖了形形色色的领域,提供了一种“机器可读”(machine-readable)的对现实世界的刻画与建模方式。因其良好的特性,大规模知识库得到了广泛的应用,如支持语义搜索[6] 、发现软件错误配置 [9] 、病人病历挖掘[10]等。
尽管体量巨大,现有知识库对现实世界实体与关系的覆盖率还远未达到令人满意的程度。以当前规模最大的开源知识库 Freebase 为例,超过 70%的人没有“出生地”信息;约 75% 的人的“国籍”属性缺失[11] 。以医疗领域最大的知识库UMLS为例,许多医学实体之间的关联,如糖尿病与其治疗药物之间的关联关系存在缺失[10] 。这些信息缺失严重地影响了用户对知识库系统的使用。
因此,有关知识库补全的研究在近些年得到了学术界与工业界的广泛关注。现有的研究可以分为两类,第一类是基于知识融合,从多个数据源抽取并集成知识元组[4,11-15] ,第二类是基于知识推理,现有工作使用了不同的策略,包括深度学习进行推理[16-17] 、借助搜索引擎 [18-19] 、学习实体及关系的语言表示模型[20] 。然而,现有方法在解决知识数据纷乱复杂、异质性强的核心挑战时存在局限性,补全效果还远未达到令人满意的程度。
同时,现有工作忽略了人在知识库补全中潜在而巨大的能力。首先,人擅长于消解语义的异质性,如能够将不同数据源中表示不同的同一实体(如苹果手机与 iPhone)或同一关系(如居住城市与所在地)有效地链接起来;其次,人能够对知识推理规则做出指导,如判断哪些知识对判断姚明的国籍有用(如出生地、奥运会代表队),以及哪些无用(如访问地)。如果能够在知识库补全中引入人的计算能力,可以大大提升补全效果。
作为一种新型群体计算模式,众包为知识库补全过程中大规模引入人的计算能力提供了机会。众包最显著的特点是将复杂计算问题分发给大量的人群(称为众包工人)进行分布式求解,充分利用人的认知、收集与推理能力参与计算,成功地解决了很多复杂的任务(如实体识别、图像标注等),取得了明显优于传统计算方法的效果,体现出了巨大的应用价值。因其良好的特性,众包在近些年取得了国内外学术界和工业界的广泛关注,在多个领域得到了广泛而深入的研究,包括图像 / 视频识别与搜索[21-22] 、信息检索 [23-25] 、数据清洗 [26-28] 、空间众包[29-30]等。然而,尽管有部分工作探讨了众包对知识库构建[31-32]可能的作用,截止到目前系统化的众包知识库补全研究还比较欠缺。
针对现有研究的局限性,本文提出研究基于众包的知识库补全技术:利用众包平台带来的众包群体计算能力,有效地解决知识库补全中的语义异质性、推理复杂性等难题,从而构建覆盖更全质量更高的知识库。本文重点探讨利用众包进行知识库补全的三方面挑战,并给出解决方案:① 众包知识库补全的计算模型。知识库补全远比传统的众包任务(如图片标注、实体识别)复杂,因此需要将这一复杂工作分解成细粒度的众包任务,以分发给大量众包工人进行求解。针对这一挑战,本文抽象出了三类基本的众包操作,即知识标注、知识链接和规则判断。② 众包知识库补全的质量控制。由于众包任务是分发给未知人群进行求解的,质量控制一直是众包研究中十分重要的课题。知识库补全又给质量控制带来了新的挑战——需要工人有一定的领域背景知识,才能正确完成任务。为此,本文介绍了自适应众包任务分配技术,估计工人在不同知识领域的准确率,进而将任务分配给所在领域的“专家”,即准确率更高的工人。③ 众包知识库补全的成本控制。众包并非免费,工人回答问题需要支付一定的报酬。然而,知识库往往规模巨大,简单利用众包解决知识库补全的所有任务会引入难以承受的金钱开销。针对这一挑战,本文介绍了众包机器协同的知识库补全技术,在一定预算约束下,选择最有“收益”的任务进行众包,并混合机器计算的结果,以期提升知识库补全的整体效果。
本文的组织如下:第 2 章将给出基于众包知识库补全研究的概览;第 3 章和第 4 章分别介绍质量控制和成本控制;第 5 章总结相关工作;第 6 章对全文做出总结并探讨可能的挑战性问题。