基于新标注模式的实体和关系联合抽取方法 | 每周一起读

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类:一类是串联抽取方法。另一类是联合抽取方法。

串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。

不同于串联抽取方法,联合抽取方法使用一个模型同时抽取实体及其关系,能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要人工参与构建特征;基于 end to end 的联合抽取模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。

本文提出了一个新的模型框架来解决此类问题,并在公开数据集 NYT 上取得了很好的效果。

* 本文已被评为 ACL2017 Outstanding Paper

详细报道:

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07

阅读笔记精选

lizhili


为了解决目前关系抽取模型中的不足:1. 联合抽取实体以及关系的方法在进行特征抽取依赖 NLP 预处理工具可能带来的误差 2. 联合抽取模型抽取实体以及关系时虽然共享参数,实则还是采用简单模型各自进行抽取,实体识别工作会为关系抽取带来一定误差。

本文提出了一种端到端的基于序列标注的的方法进行关系抽取。本文主要贡献之处在于:1. 将联合抽取实体与关系抽取问题转换为序列标注问题 2. 采用端到端模型来解决序列标注问题 3. 使用了一个带有偏置损失函数(就是后文提到的目标函数)的端到端模型,用来增强相关的实体之间的联系。

在模型的具体实现部分:


标注策略:1. 与抽取无关的词语采用“O” 2. 标注分为三个部分:单词在实体中起始终止位置、关系类型、关系角色。其中,用“BIES”(Begin, Inside, End, Single)表示位置;“1”“2”表示词语属于第几个实体;另外,在这篇文章中仅考虑某一实体属于一个三元组的可能;对于在同一句子中出现的几个三元组中出现关系类型相同的情况,采用了就近处理的策略。

端到端模型:encodeing:输入词向量,Bi-LSTM,输出特征表示。decoding:输入:从 encoding 部分得到的每个词语的特征表示,前项的预测标注,前项的隐含层的向量表示。

实验部分:采用远程监督 CoType 的数据集;和 pipeline、端到端模型以及不同序列标注模型(LSTM-CRF\LSTM-LSTM)进行对比;并且测试了文章提出的 loss function 对于抽取结果的影响。文章将端到端的联合抽取方法转换为序列标注问题确实是一个很新颖的思路,并且模型还可抽取出实体类型未知的三元组;但是对于抽取出来的未知的三元组认为是抽取错误,还是值得改进的地方。

rogerafh

相对于传统的 piplined 训练模型,本文采用了联合学习的方式,将实体发现和关系抽取两个任务联合在一起,并通过将该任务转换为标签标注任务(个人理解)。 结合我之前在知识表示学习的学习上来看,相对于远程监督方法,piplined 学习方法来说,联合学习可以减少前备任务(如关系抽取前的实体发现,融合文本的知识表示学习前的文本语义建模)所带来的训练误差和错误率,是现在融合多任务(多模型)的一个有效方法。

hanqichen

本文通过设计一套合理的标记模式,将信息抽取问题转化为一个序列标注问题。利用端到端的 encoder-decoder 框架,将实体抽取和关系抽取进行联合建模,一方面避免了 pipeline 方法带来的错误叠加,另一方面减少设计特征的人力工作。未来的工作主要在于目前只考虑一个实体属于一个三元组的情况,文中给出的解决方案是将输出层的 softmax 函数替换为一个多分类器。

Hinse

1. 本文提出一个端对端模型将实体发现任务和关系抽取任务转化为一个标注任务;

2. 设计 1 套标签并同时表示 2 个任务;

3. 模型 encoder + decoder ,输出层使用 softmax;

4. 目标函数区分 Other 和非 Other 分别计算 ML,通过预设权重让模型更注重非 Other 标签的准确率;

5. 我理解模型好处是两个任务共享了参数,可以得到有用信息。也减少了分开训练的错误积累;

6. 作者提到将来一个改进方向是把最后的 softmax 改成多分类器以实现多标签。 这样就可以实现一个实体的多关系抽取。

karis

本文提出了一种基于端到端序列标注的实体关系联合抽取方法。在 encoder-decoder 框架下,采用 bi-lstm 作为 encoder,lstm 作为 decoder,对每个词标注上 BIEM+关系类型+实体的序号。

语料和测试语料采用另外一个远程监督实体关系联合抽取的标注数据,关系类型有 24个,训练集有 353k 个三元组,测试集有 3880 三元组。最后比较了 3 组 9 个模型的结果,总得来说,联合抽取比 pipelind 的方法好,然后序列标注联合抽取要比其他联合抽取方法好(然而目前实体关系抽取任务的 F1 值仍然不到 0.5)。

LeoZhao

本文使用(sequence tagging 任务的 4 个记号)x(所有的 relation_type,这是 predefined 的,非自然语言的)构成分类标签集合。文章使用的目标函数中,位置(用于标记实体)和关系类型对错误的影响是一致的。这个需要再看看具体的例子, 直觉上实体判断错误的代价要比关系类型判断错误的代价要大。通过 bi-lstm 来编码句子信息,通过 LSTM 来生成分类结果。目前需要观察的是,该结构在位置和关系类型上的判断的错误率是否有较大差异。可以期待可解释性的提高。

qichenglin

本文的方法处理步骤: 

1. 提出一种新的标记模式将联合抽取任务转化成一个标记任务。 

2. 基于标记模式学习不同的端到端模型来直接抽取命名实体和关系,不需要分开识别命名实体和关系。

本文的方法并非开放域的关系抽取,关系词是从预定义的关系集里抽取的。传统的方法是 pipelined manner:先抽取实体,然后再识别它们的关系。这种方法忽略了这两个子任务之间的关系,实体识别的结果影响着关系抽取的性能。传统的 pipelined manner 的缺点就是会导致错误累加。

kaharjan

In this paper propose novel tagging scheme that jointly extract entities and relations. In this way extraction problem transformed into tagging task. In this method there would be no error propagation problem and could model triplet directly so that there would be no redundant information. However, this method could not handle triplet overlapping problem.

nancy

提出了一种新的标签格式能够将联合抽取工作转向成一个标签问题。基于新的标签格式,使用 LSTM-LSTM-Bias 模型来直接抽取实体和它们的关系,而不用分开辨别哪些是实体哪些是关系。在文中,只考虑了一对实体属于一种关系。另,针对同一句子中出现多个相同类型关系的实体们,采用相邻原则来标注实体。

veraLzz

贡献:提出了新的标注模式去联合抽取实体和关系。

优点:1. 联合抽取可以减轻错误传播:实体抽取的错误影响到关系抽取。2. 也避免了分开抽取造成的信息冗余。 

Future work:处理一个句子有多个 tuple,和一个实体在多个关系中出现的一对多的问题。

来源:paperweekly

原文链接

时间: 2024-09-19 20:40:05

基于新标注模式的实体和关系联合抽取方法 | 每周一起读的相关文章

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07

本期论文访谈间我们将以"川普百科信息抽取"为例,来向大家介绍来自中科院自动化研究所的郑孙聪同学,王峰同学,包红云老师,郝悦星同学,周鹏同学,徐波老师的相关工作.他们的论文"Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme"发表在今年的 ACL 2017 上,并被评为 ACL 2017 杰出论文. 实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两

Entity Framework 实体框架的形成之旅--基于泛型的仓储模式的实体框架(1)

很久没有写博客了,一些读者也经常问问一些问题,不过最近我确实也很忙,除了处理日常工作外,平常主要的时间也花在了继续研究微软的实体框架(EntityFramework)方面了.这个实体框架加入了很多特性(例如LINQ等),目前也已经应用的比较成熟了,之所以一直没有整理成一个符合自己开发模式的实体框架,是因为这个框架和原来我的基于EnterpriseLibrary的模式还是有很大的不同,不过实体框架推出来也很久了,目前也去到了EntityFramework6了,听说7也快出来了. 随着我自己参考阅读

基于物联网管理模式的环境污染监控新思考

基于物联网管理模式的环境污染监控新思考 王谦 张歆 依靠科技创新和技术进步是新时期环保工作的基本方针之一,以物联网.云计算为核心的新一轮信息技术革命为污染监控提供了前所未有的先进技术条件,技术革新同时倒逼着环保部门的环境治理模式革新.本文从治理主体.治理思路.治理信息三个方面审视了传统污染监控的缺陷,提出环保部门可借鉴物联网管理模式,尝试搭建四端联动.三位一体的"污染监控平台". 基于物联网管理模式的环境污染监控新思考

《中国人工智能学会通讯》——8.43 基于缺陷标注挖掘软件缺陷

8.43 基于缺陷标注挖掘软件缺陷 除通过描述程序的正常模式以发现软件缺陷外,另一类有效的软件缺陷挖掘技术则是通过直接对带有人工缺陷标注的程序模块进行学习建模,建立从程序模块的特征表示到软件缺陷的映射关系,以预测给定程序模块的是否可能包含缺陷. 基于缺陷标注挖掘软件缺陷的一般流程如图 1所示.首先人工对软件源代码进行详细软件测试,获得每个模块的缺陷情况标注.然后,利用软件度量 (software metric) [8] 技术提取多种与软件模块的缺陷相关的代码级统计指标 ( 如代码长度.代码分支数

多玩上市风险提示:新商业模式带来不可预知性

和讯科技消息 http://www.aliyun.com/zixun/aggregation/17197.html">北京时间10月15日,多玩YY今日正式向SEC提交IPO申请,在申请书中,多玩强调其所主导的商业模式非常新颖,未来的盈利预期和商业潜力很难评估.多玩表示:"投资我们的美国存托股票(ADS)将面临巨大风险." 多玩提出,完成公司使命和执行公司战略的能力取决于以下风险和不确定因素. 1)成功实施我们新业务模式,增加我们的用户基数并从中实现货币化,扩大我们的产

创新、风险与监管:什么才是新金融模式?| 新浪C+

第二届新浪C+峰会今天上午在北京正式开幕.在上午的金融科技论坛中,嘉宾围绕新金融模式的创新.风险与监管等问题展开讨论.其中英凡研究院副院长杜艳担任论坛主持人,参与讨论的嘉宾包括社科院金融所所长助理杨涛.浙商国际金融资产中心首席运营官许耀旂.京东金融副总裁金麟.众安保险副总经理吴逖.开鑫贷总经理周治翰. 变革传统金融:"不要只把互联网当做一个渠道" 杜艳:以前我们谈互联网金融,现在我们谈的是finctech.你们既有研究者又有一线的实践者,并且在座的各位都不是做传统金融的,你们认为Fin

新浪:难以为继的弱关系

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近看了一篇题为<新浪微博的未来需要在媒体和社交之间二选一>,咋一看这个题目,似乎觉得很有道理,但是我觉得新浪不只是需要做一个选择这么简单,要想向着社交的方向走,新浪需要连根拔起,革掉自己的媒体基因. 新浪是一个老牌的门户,从一开始就是通过吸引眼球来维持自己的运营的.它就像一个巨大的媒体,它的广告客户也几乎都是大客户,就像知名电视

东软也经历了从B2B到B2C这样一种新的模式

[ 随着软件正逐步成为一种每个人都在消费的商品,东软也经历了从B2B到B2C这样一种新的模式,"商业模式要有生命力,没有任何一种商业模式是永远不变的.在大数据和云时代的背景下,我们的业务有了新的发展空间."刘积仁说 ] "将城市的医院链接在一起,协同医院.医生之间互相合作.我们还可以获取来自 其他 城市.其他国家的医生的服务."东软集团董事长兼CEO刘积仁近日在东软软件园(大连园区)接受第一财经日报<财商>记者采访时表示. 事实上,远程医疗.智慧城市.健

海辉软件陈渝:互联网时代新商业模式

海辉软件中国事业部销售总监陈渝2011年8月18日上午9:00,由ITValue和商业价值杂志主办的2011"IT价值峰会"正式开幕.海辉软件中国事业部销售总监陈渝做了题为<互联网时代的新商业模式>的演讲.以下为演讲实录.陈渝:刚才演讲会非常精彩,我不想占用大家更多的时间,以非常轻松的方式跟大家说一下三个方面,第一个,我们介绍一下海辉软件集团简介,第二个是互联网推动商业新趋势,第三个是企业的创新商业模式.先介绍一下海辉,海辉1996年海辉于中国大连成立,1998年在日本设立