如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了 Coarse Discourse 数据集,可以将一段文字中“废话”剔除,精准识别用户所需要的目标信息。作为一名雷锋网(公众号:雷锋网)编辑,信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题?

每一天,社区中的活跃者都在发送和分享他们的意见,经验,建议以及来社交,其中大部分是自由表达,没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源,如养育,健身,旅游等等。不过,这些讨论中往往还夹杂着乱七八糟的分歧,幽默,争论和铺垫,要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到,浏览内容的方式,在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。

在这个空间中为了帮助研究人员,谷歌发布了 Coarse Discourse dataset,是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解,这些是从reddit.com网站中的130个社区,超过9000个主题中随机抽取的。

为了创建这个数据集,我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论,并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性,包括:公告,问题,答案,协议,分歧,阐述和幽默。从这个数据,超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释,我们还提供标注任务指南,供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明,问和答模式在大多数社区是一个突出的运用,有的社区会话更集中,来回的相互作用。

论文摘要

在这项工作中,我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料,是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究,我们设计了一个粗糙语料的分类,旨在围绕一般在线讨论,并允许工作人员简单注释。使用我们的语料库,我们演示了如何分析话语行为,可以描述不同类型的讨论,包括话语序列,如问答配对,分歧链,以及不同的社区中的表现。

最后,我们进行实验,使用我们的语料库预测话语行为,发现结构化预测模型,如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为,从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

使用了一种新的话语行为的分类,我们推出一个从Reddit上数千个社区采样,最大的人工标注的数据集的讨论,在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集,我们观察到常见的话语序列模式,包括问答和参数,并使用这些信号来表征社区。最后,我们用结构化CRF模型进行了分类的话语行为实验,实现了75% F1得分。此外,我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型,整体提高Q&A抽取的召回性能。

本文转自d1net(转载)

时间: 2024-09-20 22:36:19

如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集的相关文章

Node.js 去掉种子(torrent)文件里的邪恶信息_node.js

2012 年,一部名为 ABS-130 的日本影片引起了网络的震动,网络上纷纷出现了 "当初求种像条狗,如今*完嫌人丑"的现象,成为了 2012 年互联网的一件大事件. 2014年,净网行动如火如荼地进行,各大互联网公司都作出了表率,一时之间XX云.X雷都把万恶的种子拒之门外.净网行动万岁!!(还我苍老师!!) 各大网盘.下载应用都从种子当中提取关键信息,将种子拒之门外.这些关键信息究竟藏在哪里?让我们一探究竟. 种子文件结构 以下内容来自维基百科 .torrent种子文件本质上是文本

Node.js 去掉种子(torrent)文件里的邪恶信息

 torrent文件,又被称为种子,原来只是用于记录 bt下载当中所需信息的一种文件.但是随着互联网的极大发展,一些人士将一些邪恶的信息注入到了小小的 torrent文件当中,种子从此变成了邪恶的代名词.     2012 年,一部名为 ABS-130 的日本影片引起了网络的震动,网络上纷纷出现了 "当初求种像条狗,如今*完嫌人丑"的现象,成为了 2012 年互联网的一件大事件. 2014年,净网行动如火如荼地进行,各大互联网公司都作出了表率,一时之间XX云.X雷都把万恶的种子拒之门外

绝密追踪:利用像素图片收集攻击目标信息

本文讲的是绝密追踪:利用像素图片收集攻击目标信息,网络犯罪团伙正在滥用一种常见的邮件营销手段.通过名为"像素图片追踪"(pixel tracking)的技术,他们可以收集攻击目标的网络信息提高钓鱼攻击效率. 像素图片追踪是一门古老的技艺,已有数十年历史.它通常表现为一张在邮件里嵌入的1*1像素.透明色或和背景色相同的图片. 当用户收到嵌有像素图片(也称作信标)的邮件时,如果没有设置默认手动加载图片,打开邮件会从发送者服务器下载图片,对方就能知道你已经打开了邮件. 来看看一段像素追踪的代

odi 接口 会话-请问各位大神,想要获取ODI里面的“会话”信息,该利用什么接口?

问题描述 请问各位大神,想要获取ODI里面的"会话"信息,该利用什么接口? 如题,有人做过这方面相关的研究吗?如果有可否共享下接口代码,由于现在急用又还找不到..

Ajax Hack 之hack 13 在text或textarea里显示服务器信息

ajax|服务器|显示 Ajax Hack 之hack 13 在text或textarea里显示服务器信息 本hack讲的是不刷新页面显示服务器信息. 用户可以通过输入text和服务器组件交互而不用每次都等待页面的刷新.一个典型的例子就是拼写检测或自动完成field[Hack #78].使用request 对象作为媒介,服务器组件可以和用户之间实时交互. 本hack显示一个自动的服务器响应,响应无刷新的显示在text中.本hack是[Hack #12]的扩展,该hack使用request对象将用

如何获得javamail里面的debug信息 ,不是打印在控制台

问题描述 如何获得javamail里面的debug信息 ,不是打印在控制台 如何获得javamail里面的debug信息 ,不是打印在控制台

listview-Android的ListView的问题,得不到手机里的音乐信息

问题描述 Android的ListView的问题,得不到手机里的音乐信息 得不到音乐的信息 是哪里出错了呢? 解决方案 你的list中虽然添加了很多次对象,但那些对象都是同一个,应该在循环内部new出对象来,然后添加到list中 解决方案二: 安卓系统手机音乐播放器问题

重写url后,如何调用在配置文件里的配置信息

问题描述 重写url后,如何调用在配置文件里的配置信息 解决方案 解决方案二:<RewriterRule><LookFor>~/ShowBoard-(d{1,9})-(d{1,9}).aspx</LookFor><SendTo><![CDATA[~/board.aspx?boardid=$1&page=$2]]></SendTo></RewriterRule>你绑定的时候自己绑定成ShowBoard-1-2.asp

grails项目里面,如何读取Config.groovy里面的log4j 信息

问题描述 grails项目里面,如何读取Config.groovy里面的log4j 信息 如何生成一个日志文件,具体该怎么读取Config.groovy里面的log4j 的信息,在项目下面生成日志文件,谢谢大神们