CCAI 2017 演讲实录 | 周登勇:众包中的统计推断与激励机制

大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了《众包中的统计推断与激励机制》主题报告,从“为什么众包”、“众包的挑战”、“统计推断”、“激励机制”着手,结合多个生动形象的案例,具体总结了微软雷德蒙研究院过去几年在众包研究与工程上的进展。周登勇博士表示,在可以预见的将来,机器智能完全代替人的智能几乎没有任何可能,我们应该是让人与机器各施所长互相补充。数据标注是一个比较简单的人机系统,但这里面包含的技术已经相当有挑战性。如果我们要建立更复杂的人机智能系统解决更大的问题,会有更多的新的困难需要克服。

以下为演讲实录,在不违背原意的情况下进行了删减和调整。

大家好,我今天要讲的是众包。具体来说,我将讨论如何通过众包获取高质量的数据标签。为开发一个机器学习的智能系统,我们第一步要做的事情就是获得高质量的带标签的数据。

为什么需要众包?

通过众包我们很容易拿到大量的带有标签的数据。众包有两个优点:

  1. 速度快。一个商业众包平台或许有上百万甚至几百万的数据标记人员。
  2. 便宜。在亚马逊众包平台标注一个图像数据通常都不到1美分。

所以,通过众包很可以以很少的花费在短时间内获得大量的带标签的数据。在机器学习里大家经常会说的一句话:更多的数据会打败一个聪明的算法。

如何提高众包数据的质量

众包存在的问题
可是,通过众包获取的数据标签质量或许不高。 只要原因如下:
1. 专业技能。因为众包人员可能没有标记你的数据所需的技能。
2. 动机。众包人员没有动力好好的把这个数据标记好。
如果使用低质量的数据去训练一个机器学习模型,不管使用什么高级的算法,都可能无济于事。

众包中的统计推断

在一定程度上,统计推断可以帮助我们从低质量的通过众包获得的数据标签中提炼出正确的标签。

让我们先看一个假想的例子。比如这个橙子与橘子的分类问题。每幅图像同时有几个人标注,不同的人或给出不同的答案。但是,当把不同的答案设法结合起来,我们或许能知道正确的答案是什么。这也通常叫做群体智慧。

怎么结合不同人的答案呢?最简单的办法就是采用投票的方式。也就是说,哪一类标签拿到的投票数是最多的,我们就认为这个图像属于这一类。

我们在做一个问题的时候,总应该想一想,我们的做法合理吗? 还有改进的空间吗? 在我们的这个问题上, 投票意味着什么呢?投票意味者所有人的水平都是一样的。也就是说, 大家都一样好。

显然这在现实上不太可能。更可能的是大家水平参差不齐。但是,因为没有正确的答案,我们不能立即知道谁的水平更高。而且,即使我们知道正确的标签,也很难比较两个人的水平的高低,因为不同的问题难度会很不一样。一个答对了10道容易问题的人与答对10道难题的人水平或很不一样。所以,为了推断出正确的数据标签,我们需要把以上讨论的关于人的水平与问题难度的直观想法转化成一个数学模型。

接下来讲我们的方案。在这之前,让我先引进一些数学符号。让我们把收集来的众包数据表示成一个矩阵。这个矩阵的每一行对应一个数据标记员,每一列对应着我们需要标记的对象。数据表示第个人对第个数据做出的标记。真实的标签是不知道的。我们需要解决的问题就是如何从推断出

极小极大熵原理

我们的解决方案叫极小极大熵原理,可以分成两块来解读:

  • 优化的对象;
  • 优化的约束条件。

我们先看约束条件。第一个约束条件是针对每个数据标记员工,第二个约束条件是针对每个需要标记的对象。下面我将解释这两个约束。我们会看到第一个约束条件对应着人的水平,第二个约束条件对应着问题的难度。

刚才说过,每一个数据标记人员所标记的数据对应着矩阵的一行。我们的约束做这么一件简单的事情:计数。我们数一下有多少类别为c的对象被误标为l。约束方程的右边是观察到的误标总数,左侧则是对应的期望值。一个人误标越多,水平就越低。

构造这个约束方程的原理可以理解如下。

假设我们有一枚硬币,我们希望知道这个硬币是正面的概率是多大。假设我们把这个硬币不断的丢10次,有6次是正面。那么正面的概率是多少呢?一般我们会说正面的概率是60%。为什么呢?我们可以这样想。假设正面的概率是p,我们会认定10 * p = 6,右边是观察到的正面数,左边是期望值。解这个方程,我们就可以得到p = 0.6。

类似的,我们对需要标记的每一个对象也有这样的计数。当我们知道真实的类别的话,我们会知道有多少人标错了。标错的人越多,这个问题就越难。我们方程的右侧统计一下到底有多少人标错了,左边则是它的期望值。

约束条件已经讲完了,现在回到为什么采用这样一种目标函数。首先我们把极小化放在一边,先看极大化。也就是极大熵。我们用一个数学模型解释观察到的数据的时候,尽量用一个光滑的模型去拟合数据。类似地,当我们用一个概率分布解释观察到的数据的时候,会让分布尽可能平坦。这就是极大熵原理的直观解释。为进一步推断真实的标签,我们极小化最大的熵。熵在直觉的意义上意味着不确定性。极小化最大的熵意味着极小化不确定性,也就是我们认为数据标记员都在尽力做好他们的工作。如果他们只是提供随机的标签,那么就没有任何办法去恢复真实的标签。

解决极小极大的优化问题的时候,我们需要把它变成一个对偶问题,叫拉格朗日对偶。拉格朗日乘子σ_i与τ_j可以分别解释成人的水平与问题的难度。我们初步设想是把每个人的能力与问题的难度给刻画出来,但是并没有假设这个模型是什么样的。当我们同时引进约束条件和极大极小化熵,这个模型就自动推出来了。要注意到这里的拉格朗日乘子是矩阵,

时间: 2024-08-29 07:50:50

CCAI 2017 演讲实录 | 周登勇:众包中的统计推断与激励机制的相关文章

中国人工智能学会通讯——众包中的统计推断与激励机制 4 我们能否有更好的付钱方式

4 我们能否有更好的付钱方式 允许跳过没有把握的问题 付钱问题实际上有利益冲突在里面,数据标记人员希望用最小的努力拿到最大化的收益:雇主希望花最少的钱让他们出最好的活. 一个好的付钱机制需要协调这个矛盾,达到双赢.为解决这个问题我们需要用数学刻划两个概念,一个是"真实性"(truthful)准则:一个是"没有免费的午餐"(no-free-lunch)准则. "真实性"准则假设每个人在回答问题时会有一个信心(confidence)值,在0~1之间.

当机器学习遇见“众包”——访微软雷德蒙研究院首席研究员周登勇

提到众包,想必大多数人都不陌生,"一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法.众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现."这一概念由美国<连线>杂志的记者杰夫·豪(Jeff Howe)在 2006 年 6 月提出,众包模式的出现极大的提升了企业工作效率而且大幅降低成本. 人工智能时代即将来临,作为实现人工智能的重要方法,机器学习开始受到广泛关注.训练

演讲实录:MySQL 8.0 中的复制技术

01定义 02 MySQL复制技术的简单框架 首先在复制环境中,有两个server,在第一个server中产生binary log,通常将这一个server成为master,另外一台server会将master上的binary log复制过去,然后通过日志的应用,产生和master一样的数据库,这就是复制的基本理论.其基本流程如下: 当应用在master数据库上执行SQL语句,这些操作会被数据库捕捉并以event的形式写到binary log里面,并以文件的形式存储.通过通讯模块,这些event

【演讲实录+视频】走近40+世界级AI专家!第三届中国人工智能大会资料分享

中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高.规模最大的人工智能大会.秉承前两届大会宗旨,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)于7月22-23日在杭州召开. 大会官网及图文直播:  http://ccai.caai.cn/m/zone/ccai2017/live 大会现场视频直播盛况:  https://yq.aliyun.com

AI 大师云集!CCAI 2017 中国人工智能大会盛大开幕

7月22日-23日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,,独家直播的2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开. 作为由中国人工智能学会发起的人工智能领域顶级盛会,CCAI 代表着国内最高水准的产学研技术交流.本次大会更是在前两届成功经验的基础上,将全球人工智能领域的顶级专家.学者和产业界优秀人才汇聚一堂,围绕着当前 AI 热点话题.核心技术,以及与会者共同关注的科学问题

AI 产学研大集结,CCAI 2017 中国人工智能大会将于明日正式召开(附参会指南)

会前须知 本次大会地点是在杭州人无所不知的"大金球"--杭州国际会议中心,位于浙江省杭州市解放东路2号(近之江路),乘坐公交8路.22路.34路.42路等到打铁关站,或乘坐地铁4号线到市民中心站,J口出,步行490米就到啦,杭州国际会议中心这个显著的金色圆球形建筑就是最好的方向标. 需要注意的是,周六周日两天杭州气温较高,好在阳光明媚,并不会下雨.各位参会者请注意防暑降温,下面天气预报供大家参考: 本次大会有多位国外嘉宾参与,特别是23日上午,会有四位国外重磅嘉宾发表独立演讲,大会组委

CCAI 2017 | 小数据学习对人工智能究竟有着怎样的影响?

近几年来,得益于大数据的积累.计算能力的提升,深度学习从学术到工程领域均取得了非常显著的发展与突破,尤其是诸如图像识别.语音识别等实际场景应用.但是,依赖于海量的训练数据.灵活的模型.足够的运算能力以及足以对抗维度灾难的先验经验,从很大程度上来讲妨碍了深度学习技术更为广泛的运用.为此,在全球范围内,众多人工智能领域的学术大师及业界专家上下求索,也由此催生了小数据学习(Learning from limited information),通过更少的数据以及更确定的方法让 AI 学习更加高效. 然而

CCAI 2017 | 病人是否有生命危险?机器学习来告诉你——专访南加州大学终身教授刘燕

从早前的语音识别到后来围棋中的人机大战,人工智能技术早已不是"天边的云彩",遥不可及,而是更多的落地于生活,解决很多具体的问题.机器学习作为实现人工智能的方法,使用机器学习训练的模型广泛应用于复杂系统的预测问题,股市的涨跌,是否会发生自然灾害等这些通常凭借"经验"判断的问题统统可以使用机器学习来达到更加准确的预测.而这一切,都绕不开对于数据的分析研究. CCAI大会前夕,CSDN专访了南加州大学计算机系终身教授.机器学习中心主任刘燕,她的主要研究项目是时间序列和时空

41位全球顶尖AI专家共论人工智能创新实践,CCAI 2017全日程公布!

7 月 22 - 23 日,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,阿里云作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕. 作为中国国内高规格.规模空前的人工智能大会,本次大会由中国科学院院士.中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任.AAAI Fellow 杨强,蚂蚁金服副总裁.首席数据科学家漆远,南京大学教授.AAAI Fellow 周志华共同甄选出在