《中国人工智能学会通讯》——12.39 众包机器协同技术介绍

12.39 众包机器协同技术介绍

众包机器协同技术的核心想法是众包任务选择,即在一定预算约束下,选择最有“收益”的任务分配给众包工人进行求解。具体来讲,由于存在大量的 HTML 表格,而金钱上的预算又是有限的,假设为 k,能否精心挑选最有“收益”的 k 个表格中的列,让众包将它链接到知识库的概念上。剩余的列可以通过机器的方法,如基于文本相似性或图结构相似性进行匹配,或基于众包答案进行推理。

不难看出,众包机器协同技术的核心挑战在于如何定义“收益”,以及如何选出最有收益的 k 个HTML 表格的列。这里给出解决这些问题的基本想法,具体的技术介绍见文献 [33]。具体而言,有关表格列的收益考虑两方面因素:

● 任务的难度:如果一个任务对于机器来讲比较难,则应优先分配给众包解答。这里的“难度”反映了单纯依赖机器匹配的歧义程度。以图 6 为例,上面的一列机器以较大概率(0.95)认为是电影,而下面的一列机器则比较含糊,歧义性强。直观上讲,下面的列对于机器的难度更大。基于这一想法,提出了使用信息熵度量难度的方法。

● 任务的推理能力:很多时候,如果众包解决了某些任务,可以帮助推断其他任务的答案。图 7给出了两种推理示意:① 左侧是表内推理。如果众包确定了表格的第二列是电影导演,那第一列是电影名称的可能性就提升了。② 右侧是表间推理。如果众包判断了一列的类型,与它相似的列对应到同一类型的可能性就提升了。基于这一想法,提出了基于概率的任务推理模型。
基于上述因素,提出了任务收益(Utility)模型,并证明了挑选整体收益最大的 k 个任务这一问题属于 NP 难问题。为此,提出了一种有效的近似算法,并证明了该算法的近似比是 1 - 1/e(其中 e 为自然对数)。当众包返回 k 个任务的答案后,再根据前面介绍的表内和表间推理其它任务的答案。

时间: 2024-12-22 01:45:34

《中国人工智能学会通讯》——12.39 众包机器协同技术介绍的相关文章

《中国人工智能学会通讯》——4.24 机器的视觉注意

4.24 机器的视觉注意 1 . 表达方式 对于给定的图像或视频数据,机器的视觉注意过程是希望能找到场景中较为显著(或突出)的区域,其输出结果一般采用视觉显著度图(Saliency Map)的形式.其中每个空间位置的显著性一般用值域为 [0,1]的概率值来表示.概率值越大,表示该位置越有可能成为人类视觉关注的目标.以图 1 为例,图中第一行为原始输入影像:第二行为视觉显著度图(每个像素的灰度值是将其对应位置的概率值线性放大到值域[0,255],并予以显示).图像中强度越高的区域表示越有可能是兴趣

《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

7.9 机器阅读理解评测数据集 现阶段,和阅读理解相关的数据集主要有以下五个. 1 . MCTest 微 软 研 究 院 的 研 究 员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集.在这个数据集中,所有的文档都是一些叙述性的故事.它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内,包含有许多常识性的推理,这些推理既包含事实性的,也包含非事实性的.这个数据集包含有两部分,一个是 MC160,还有一个是 MC500,分别包含 160 篇和 500

中国人工智能学会通讯——人类作为“情感机器”——效用函数、情绪和社会偏好 1.1 效用函数

1.1 效用函数 效用函数是一个经济学概念,指的是客观事物到主观价值之间的映射关系,最初由数学家Daniel Bernoulli在1738年引入,用于解释人们在风险决策中的不理性倾向[8].描述人类决策行为的经济学和心理学理论,大多建立在效用函数之上[9].效用函数随个体而异,不同个体可能赋予同一事物不同的主观价值,正所谓"彼之蜜糖,吾之砒霜". 21世纪初,研究者首先在非人灵长类动物的脑中,发现了表征主观价值的神经信号[10].Padoa-Schioppa和Assad让干渴的猴子在味

《中国人工智能学会通讯》——1.5 智能问答技术

1.5 智能问答技术 从早期的数字图书馆.专家系统到如今的搜索引擎,人们一直致力于追求快速.准确的信息获取方法.目前,网络上的数据资源浩如烟海.错综复杂,而用户的信息需求又千变万化.千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能问答技术通过对数据的深度加工和组织管理,以更自然的交互方式满足用户更精确的信息需求. 智能问答技术可以追溯到计算机诞生初期的上世纪五六十年代,其中,代表性的系统包括 Baseball [1]和 Lu

《中国人工智能学会通讯》——1.14 聊天机器人技术的研究进展

1.14 聊天机器人技术的研究进展 近年来,聊天机器人受到了学术界和工业界的广泛关注.一方面,聊天机器人是图灵测试的一种实现方式,而图灵测试是人工智能领域王冠上的明珠:另一方面,微软推出了基于情感计算的聊天机器人"小冰",百度推出了用于交互式搜索的聊天机器人"小度",进而推动了聊天机器人产品化的发展.聊天机器人系统可以看作是机器人产业与"互联网 +"的结合,符合国家的科研及产业化发展方向. 智能问答类的聊天机器人主要功能包括回答用户以自然语言形式

《中国人工智能学会通讯》——6.11 链接数据技术

6.11 链接数据技术 数据链接的建立涉及多个方面,包括数据资源标识.资源描述模型.词汇与本体定义.链接数据格式.自动链接抽取.链接预测等. 资源标识资源标识是构建数据链接的第一步.LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识.但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源.要维护不同数据集之间的 URI 链接,将带来巨大的工作量. Schema.org 鼓励采用一种称为

《中国人工智能学会通讯》——11.51 基于幻象技术的异质人脸图像合成

11.51 基于幻象技术的异质人脸图像合成 基于稀疏特征选择的方法,以及现有的大部分算法在合成人脸图像时,多是采用线性组合的方式.线性组合,即线性加权平均,可以看作一低通滤波器,会过滤掉一些高频细节信息,如图2所示.此外,由于现有的异质人脸图像合成算法对图像分块多采用相邻块覆盖的方式,故在最后融合生成一整张人脸时需要将重叠区域平均,这也会带来一定的模糊效应,过滤掉部分高频细节信息. 那么是否能够通过学习输入测试照片到残差图像之间的映射关系来学习丢失的高频细节信息?而人脸幻象 (face hall

中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

1.4 早期行为识别方法 下面讨论如何让计算机去识别视频中 行为?首先,对于很多图像视频分类问 题来讲,最核心地找到一个好的表示. 下面我们先介绍如何利用非深度学习方 法.早期做图像识别时,利用兴趣点和 局部图像特征构建视频表示,这个方法可 以被推广到视频. 这是 IJCV2005 年发 表的一篇论文,提出了 Spatial-temporal interest points 时空兴趣点,像下图中运 动员当头顶到球的时候,在这个位置和 这个时刻会形成一个识别兴趣点. 行为中包含的运动信息不仅仅是某

《中国人工智能学会通讯》——5.7 飞机喷涂技术

5.7 飞机喷涂技术 在飞机制造的过程中,喷涂是飞行器表面处理的重要工艺.由于飞机的运动空间以及需适应多种恶劣环境下的飞行,飞机的表面性能要求非常高.飞机表面涂层对于飞机表面保护有着重要作用,有助于抵御极端天气的侵蚀,以及飞行过程中与空气摩擦产生的热量.在军用飞机领域,隐身涂层是先进隐身战机的关键,通过喷涂能吸收雷达波的特殊涂层,极大地减小了飞机的雷达反射面积,从而实现了隐身功能. 然而,当前航空制造领域中大部分的喷涂工艺主要还是靠人工喷涂完成.人工喷涂不仅劳动力成本高.生产效率低.劳动强度大,