《中国人工智能学会通讯》——12.26 基于众包的数据提纯

12.26 基于众包的数据提纯

随着基于位置服务的蓬勃发展 , 随之出现了大量相关的空间文本数据。空间文本数据包括两方面信息,一个空间位置信息 , 通常与一个空间兴趣点相关,由一个经纬度坐标点表示数据所处的地理位置;一个文本信息,通常是由一组关键词构成的类似标签的文本描述。目前,这些关键词标签的生成方式主要通过人工添加与机器算法自动生成,由于来源广泛,这些生成的关键词质量参差不齐,很多质量难以保证。这些错误的数据在实际应用中将带给用户非常糟糕的体验,甚至误导用户,造成损失。比如当前很多基于位置的服务通过关键词标签为用户提供兴趣点推荐服务,若兴趣点的标签是错误的,那会给用户带来极大的困扰。由此很多产生的空间文本数据很难在实际中使用。 为有效缓解这一问题,本文研究基于众包的空间文本数据提纯问题,通过众包方法优化收集到空间文本数据的关键词,排除其中错误不合理的关键词。

众包是这几年兴起的通过人力智慧解决问题的可靠途径。 很多计算机难以有效解决的问题,如复杂的图片标注、实体一致性判断等问题都可以通过众包得以解决。通常任务会被发布到众包平台 ( 如MTurk、ChinaCrowds) 上,然后由众包工人参与解答任务。本文采用同样的方式,当一个空间文本数据作为任务被发布在众包平台上后,按照图 1(a) 的框架执行任务。任务针对的是真实的动态场景,首先有一个总的花费预算 ( 如工人回答任务的总数,即每个工人回答一个任务需要消耗一定金钱 ),然后工人陆续地分批请求任务,当某个工人提供答案后还可以继续请求任务。当一批工人请求任务时,有一个任务分配模块会为每个工人分配一定数量的任务,然后通过众包平台收集工人的答案,并交由一个推断模型来得到包括工人质量在内的中间信息。这些中间信息会进一步指导分配模块对下一波请求任务的工人进行任务分配。这个分配 - 推断的过程一直重复进行,直到预算全部花费完毕。这时由推断模型根据所有收集到的工人答案,推断出每个数据关键词是否正确合理。下面介绍并解决这一过程中需要处理的问题。

时间: 2024-09-20 00:16:55

《中国人工智能学会通讯》——12.26 基于众包的数据提纯的相关文章

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

中国人工智能学会通讯——“智能+”时代的金融大数据应用

今天这个论坛是智能金融论坛,我们理解智能金融其实就是人工智能的金融--AI+金融,我今天演讲的题目就是智能时代下的金融大数据应用.我4月底在这个会场全球移动互联网大会有一个讲话,时间比较短15分钟,今天很感谢柳博士给了我30分钟,我要好好利用这30分钟,把我们过去平安做的工作和我们团队做的工作给大家做一点汇报,后面的交流时间请大家多多提意见. 现在互联网+谈的是比较少的,主要是模式的创新.去年从阿尔法狗开始到今年1年多时间,大家谈的更多的是人工智能和智能+.我们更多要思考的,人工智能不是一个新的

《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究

12.32 基于众包的知识库补全研究 近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点.一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] .NELL [2] .DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] .谷歌公 司 的 Knowledge Graph [6] .Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] .这些知识库包含了数以亿计的真

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智