《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

12.33 众包知识库补全方法概览

本章介绍众包知识库补全的方法概览,如图 1所示。其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库、Web 结构化数据等,提取知识数据,并将不同数据源的知识数据融合起来,以此补全知识库;其二,在融合的过程中有效地利用众包,通过众包模型细化出具体可供众包完成的任务,利用众包优化算法进行质量和成本的控制,以选择出最优的任务发布到众包平台,如美国亚马逊公司的 Mechanical Turk ( 简称 MTurk) 1 。
知识抽取:提出利用多类数据源进行抽取,其优势在于使不同源的知识数据互相进行补充,为知识库补全提供数据基础。具体考虑以下数据源:① 多 个 现 有 知 识 库, 如 YAGO [1] 、DBpedia [3] 和Freebase [5] 等,这些知识库构造的方法不尽相同,数据间存在互补;② Web 结构化数据,如 HTML表格[33] ,这些数据规模巨大且具有一定的结构特征,如微软在 2012 年报告存在近 6 亿的 HTML 表格。在此基础上,提取知识元组(主语 - 谓词 - 宾语)。注:由于提出方法的重点在利用众包,因此在知识抽取方面使用了现有的抽取技术。

众包模型:构建利用众包进行知识库补全的基本模型,即将知识库补全这一复杂工作分解成细粒度的众包任务,以分发给大量众包工人进行求解。在此过程中,需要进行候选任务的生成和众包任务的管理工作。具体来讲,提出以下三类基本众包任务。

● 知识标注任务:这类任务要求众包工人直接对知识元组的正确性进行判断,即给定抽取的知识元组 (s, p, o)(符号 s、p 和 o 分别表示主语、谓词和宾语,是一般表示知识的形式),希望众包工人返回 1(表示元组正确)或是 0(表示元组不正确)。

● 知识链接任务:这类任务利用众包对不同数据源的知识元组进行链接。具体而言,给定抽取自不同知识源的两个元组 (s 1 , p 1 , o 1 ) 和 (s 2 , p 2 , o 2 ),这类任务支持以下两种链接:① 实体链接:即判断充当主语或宾语的实体间尽管表示不同,但实际指代同一真实实体,可以链接起来;② 关系链接,即判断关系 p 1 和 p 2 指代的是同一种关系。

● 规则判断任务:这类任务使用众包对知识推理的规则进行判断。知识库中的其他元组对判断某一元组是否存在具有推理作用。具体而言,如要判断元组 (s, p, o) 是否成立,可以参考将主语 s 和宾语 o 关联起来的其他元组,如 (s, p 1 , e) 和 (e, p 2 , o)。这类任务就是判断 (s, p 1 , e) 和 (e, p 2 , o) 如果存在,是否能够推断出 (s, p, o) 就很可能存在。

例如,考虑判断姚明国籍(为了示例,我们假设知识库中姚明的国籍信息缺失)。知识标注任务是让众包直接判断 ( 姚明 , 国籍 , 中国 ) 元组是否正确;知识链接任务是将姚明与某篮球队员 HTML 表格上的姚链接,将关系国籍与如所属国家链接,以此将该表格上的中国填充到国籍的宾语中。规则判断任务是让众包判断 ( 姚明 , 出生地 , 上海 )、( 上海 ,所属国 , 中国 ) 这两个元组是否对判断国籍有帮助。

众包优化:如前所述,众包知识库补全面临着两大挑战:① 质量控制:与传统简单的众包工作(如图片标注、实体识别)不同,知识库补全更为复杂,需要众包工人具有一定的领域背景知识,如做上述判断国籍的题目需要对篮球队员有所了解。为此,本文提出自适应众包任务分配技术,详见第 3 章;② 成本控制:众包并不免费。由于知识库体量巨大,如不能有效地控制成本,众包知识库补全会引入难以承受的金钱开销。为此,本文提出众包机器协同的补全技术,详见第 4 章。

时间: 2024-09-11 00:35:55

《中国人工智能学会通讯》——12.33 众包知识库补全方法概览的相关文章

中国人工智能学会通讯——基于图像认知的心理测评方法及系统

摘要:长久以来心理障碍的诊断和评估通常都是建立在晤谈.观察.量表测验的基础上,交互繁琐困难,主观性比较大,使得人的心理特征难以快速获取和量化.本研究创新性地将心理学和信息科学结合在一起,建立了情绪图像库,通过考察前景人脸和背景情绪图像的不同交互效应,收集反应时.眼动轨迹等生理特征,结合机器学习算法的数据分析,提出了一种全新的基于图像认知,以及人的生理特征的客观.便捷地提取人的心理特征的方法. 关键词:图像认知:心理测评:情绪图像库:反应时:眼动轨迹:机器学习 图像心理学测试系统 随着社会压力的增

《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究

12.32 基于众包的知识库补全研究 近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点.一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] .NELL [2] .DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] .谷歌公 司 的 Knowledge Graph [6] .Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] .这些知识库包含了数以亿计的真

《中国人工智能学会通讯》——12.42 总结

12.42 总结 本文介绍了基于众包的知识库补全技术.首先介绍了众包的计算模型,归纳了三类知识补全任务,即知识标注.知识链接和规则判断:其次,介绍了自适应的任务分配技术以解决众包知识库补全的质量控制问题:最后,介绍了众包机器协同技术以解决众包知识库补全的成本控制问题.然而,需要说明的是,本文只是对众包知识库补全的初步解决,还有很多有挑战的问题需要研究.例如,如何建立统一的众包机器框架以解决三类知识补全任务,如何控制众包任务的延迟等.

《中国人工智能学会通讯》——12.37 众包机器协同的知识库补全技术

12.37 众包机器协同的知识库补全技术 本章介绍众包机器协同的知识库补全技术,用来进行有效的成本控制,基本思想包含两方面.第一,众包任务选择,即在一定预算约束下,选择最有"收益"的任务进行众包:第二,众包任务推理,即给定众包反馈的答案,利用机器算法推理未被众包解答的答案.首先会在 4.1 节介绍知识库补全的重要途径,知识库与 HTML 表格融合:进而在 4.2节给出基于众包机器协同进行融合的方法介绍.更详细的内容参见文献 [33].

《中国人工智能学会通讯》——12.38 知识库与 HTML 表格的融合

12.38 知识库与 HTML 表格的融合 近年来,HMTL 表格(Web Table)作为万维网上重要的结构化数据,受到了广泛关注.HTML 表格有两个优点,其一是数量巨大,根据微软在 2012年的统计,万维网上存在着近6亿的HTML表格[33] :其二结构良好,如图 4 所示,左侧和右下的 HTML表格以良好的结构提供了公司的信息.因此,本文提出将HTML表格的数据抽取出来,链接到知识库中,以实现知识库补全.图 4 给出了这一想法的示意,将 HTML 表格中的公司实体与属性映射到知识库的公司

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推