《中国人工智能学会通讯》——7.17 篇章语义分析方法概述

7.17 篇章语义分析方法概述

篇章语义分析主要有以下三个主流的研究方向。

以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系,例如条件关系、对比关系等,亦称为修辞关系识别。根据是否需要将文本分割为一系列彼此不相交的覆盖序列,可以将本类方法进一步分成两大类:第一类以修辞结构理论(RhetoricalStructure Theory) 和 篇 章 图 树 库(DiscourseGraphBank)为代表,要求先将文本切分为彼此不相交的语义单元,并随后分析各部分之间的语义关系及结构组成;第二类方法以宾州篇章树库理论(Penn Discourse TreeBank)为代表,不需要预先切分文本,而是直接识别篇章关系及其元素所在位置,并随后识别具体的语义关系类型。修 辞 结 构 理 论 (RST,Rhetorical StructureTheory,) 最早由 Mann 和 Thompson 在 1988 年发表的论文[1]中提出。除 Mann 和 Thompson 在该方向持续发表相关工作论文之外,Marcu 在其论文中对 RST 理论进行了分析,并持续探索该方向,提出两种基于 RST 理论分析的文本处理方法[2] :① 识别提示短语(CP,Cue Phrases),然后将整句打散成若干个子句;② 为无结构的文本建立一个有效的修辞结构树。RST 理论以文本结构为分析对象,从小单元之间的连接关系开始,逐步延伸到自然语言段落和完整的语篇。RST 在汉语中的跨语言可转移性有特殊的背景。可惜,虽然有不少对RST 的中文介绍和初步应用计划等,但实质性的发展应用很少。

目前,山西大学李茹教授的团队正在尝试进行中文 RST 树库的构建工作,所产出的资源已经具有一定规模,非常值得期待,只是尚未有公开的成果发表。因此,RST 理论现在在中文尚没有一套完整可用的系统或理论,应用难度较高。篇 章 图 树 库(Discourse GraphBank) 最 初由 Wolf et al [3] 提出。该理论认为,相比于树结构,篇章更适合于表示为图。在最初的文章中,他们详细讨论了图表示与树表示的差别,并构建了一个由 135 篇文档构成的篇章树库资源。他们提出,图表示允许将文章中的不同内容以更自由的形式表示出来,从而可以尽可能地获取丰富信息。

关 于 Discourse GraphBank 与 RST DiscourseTreeBank 的区别可详见文献 [3]。宾 州 篇 章 树 库 理 论(Penn DiscourseTreebank)是宾州大学的研究人员采用的一种以词汇为中心的方法[4] ,在句子级的 Penn TreeBank树库的基础上,以篇章关联词语为核心,从语义角度出发构建了篇章关系树库[5] 。该研究检测同一篇章内两个文本单元(片段、分句、复句、句群、段落等)之间的逻辑语义关联(因果关系、转折关系等),将句内的语义分析结果扩展为篇章级别的语义信息,从而成为语义分析的重要解决途径之一。根据文本单元间是否存在篇章连接词,可将篇章句间的关系分为包含关联词的显式篇章句间关系(Explicit Discourse Relation,简称显式关系) [6-7] 与不含关联词的隐式篇章句间关系(Implicit DiscourseRelation,简称隐式关系) [8-11] 。

由于隐式篇章关系缺少关联词,无法直接推测语义关系类型,需要根据上下文进行推测,因此也更加难以识别。目前采用 PDTB 标准构建的篇章语料主要面向英语[5] ,除此以外印度语 [12] 、土耳其语 [13]和阿拉伯语[14]上也有相应的研究和资源出现。在中文上,布兰迪斯大学的 Xue 教授最早尝试了中文关联词标注于分析工作[15] ,并尝试按照 PDTB 体系标注中文树库。除此以外,Huang et al [16] 也在相关工作上做了一定尝试。值得一提的是,哈尔滨工业大学社会计算与信息检索研究中心秦兵教授课题组,采用 PDTB 框架,历时数月,标注超过 20 000 个实例,构建了一份大规模的中文篇章语料库[17] ,并于2014 年对学术界免费共享。整体来说,以篇章结构为核心的篇章语义分析研究中,文本的语义信息首先被转换为文本块间的修辞结构,随后具体化为相应的语义关系类型(例如因果关系、转折关系等)。对于以修辞结构理论(RST)为代表的一类研究而言,文本块间的修辞结构应该满足一种树形结构;而对于以宾州树库理论(PDTB)和篇章图理论(DiscourseGraphBank)而言,文本块间的修辞结构则倾向于线形结构,同时允许一定的交叉和跨越关系存在。

这些研究兼有表现力和实用性,通过定义修辞结构和语义关系,这些方法可以获取一定程度的语义信息,并且采用超越了词汇级别的基本处理单元,表现力较强。缺点主要在于结构分析难度较大,无论RST 还是 PDTB 都对篇章结构做了部分假设从而降低难度,提升操作性,但也损失了语义结构的完整性。更重要的是,在语义类型识别方面,由于语义问题本身的复杂性和歧义性,导致识别难度较大;而已有的相关研究主要关注篇章内部特征的挖掘和使用,对外部语义知识的使用不足,这也在一定程度上限制了最终的识别效果。以词汇语义为核心最典型的代表为词汇链理论(Lexical ChainTheory),其由 Morris et al [18] 于 1991 提出的。“词汇链”是指一个主题下的一系列相关的词共同组成的词序列。该算法的基本假设非常直观:用于描述特定主体的多个词语,在语义层面上应该是相关的,并且围绕特定主体展开构成一条相关词汇的链条。这样聚集起来的相关词汇的链条即称为“词汇链”,作为特定语言片段内部各个主题的指示。如果能够分析获知多个词汇链在文中的分布,那么对应的文章结构也就确定了,属于一种静态的语篇连贯研究方法。

与链状的词汇链不同,中心理论(CenteringTheory)主要针对篇章结构中的焦点、指代表达式选择、话语一致性等进行研究。最初由 Grosz etal [19] 在 1995 年提出,通过跟踪句子的“中心”变化来描述篇章。“中心”指的是将当前句子与其他句子关联在一起的实体,如果一句话有了这种“中心”实体,那么它将不再是独立的句子,而是与上下文相关的语句。

如此,他们将“句子 (Sentence)”与“ 语 句 (Utterance)” 区 分 开 来, 用“ 句 子(Sentence)”指代一个普通的词的序列;用“语句(Utterance)”代指这种具有中心的、与上下文相关的句子。所以其认为,这些“中心”才是组成语篇结构的基础成分。篇 章 连 贯 性 理 论(Discourse CoherenceEvaluation)是篇章语义分析研究的另一典型代表。该研究最初始于 Grosz et al [19] 1995 年提出的“中心定理”,通过对“中心”的刻画直接反映了篇章连贯信息。近年来,篇章连贯性分析研究获得了比较快的发展,出现了一些操作性较强的方法和研究。2005 年,Barzilay et al [20] 提出了经典的基于实体的连贯性评估方法,该方法分析各个实体在多个句子中是否出现及相应句法角色,将待评估的文章转化为 Entity-grid,并利用该 Entity-grid 抽取特征训练有指导模型来进行连贯性评估。

2008 年,Elsneret al [21] 在经典的 Entity-grid 模型的基础上,对篇章实体进行了进一步细分,引入新实体的概念和实体间的共指信息,显著提升了系统性能。随后,他们进一步丰富了 Entity-grid 方法,向表格的项中添加了关于实体显著性的信息,以更加提升系统性能[22] 。在上文介绍的以词汇语义为核心的篇章语义分析研究中,文本的语义信息通过词汇间的语义关联体现。具体来说,语义相关的词汇、实体在文档中的分布情况,也可以体现篇章的行文结构以及各部分之间的语义关联,此类研究中的不同理论与方法从不同的角度对篇章信息进行了刻画。具体来说,语义词汇链理论(Lexical Cohesion)通过分析普通词汇(包括名词、形容词等)的语义信息构建主题词汇链,利用词汇之间的分布和转移方式分析篇章语义。

中心理论(Centering Theory)和连贯性分析则主要以实体为分析对象,利用实体(包括共指实体、相关实体等)的分布和重现刻画篇章信息。这一类的研究理论完善,操作性也比较强;但以词汇为分析对象,表现力比较有限,而且语义关系以关联为主,对具体的语义类型(例如因果关系、转折关系)没有进行更细致的区分。另外,此类方法通过词汇的衔接来反映篇章结构,不利于刻画复杂的篇章结构信息。以背景知识为核心此类研究工作需要借助语义词典作为背景知识,帮助分析篇章语义关系。

经过国内外专家的努力,目前已经产生一些初具规模,并具有一定实用程度的语义词典资源。在国外有以描写词汇上下位、同义、反义等聚合关系为主的WordNet [23] ,以描写语言成分之间的各种组配关系为主的 FrameNet [24] 。而国内比较知名的有知网(HowNet) [25] 、清华大学开发的以语义组合关系为主的《现代汉语动词分类词典》 [26] 、北京大学基于 WordNet 框架开发的中文概念词典(CCD,Chinese Concept Dictionary) [27] 、 台 湾 中 研 院集 成 多 资 源 的 SinicaBow(the Academia SinicaBilingual Ontology WordNet) [28] 、哈尔滨工业大学在同义词词林(Cilin)基础上开发的同义词词林(扩展版)等。随着 Web 2.0 的发展,用户产生内容使得互联网上的信息量爆增。以 Wikipedia(维基百科)为代表的,使用群体智慧构建的在线百科就是其中的典型代表。Wikipedia 是一种在线协作式编辑的多语言百科知识库,它以概念(concept)为单位维护一个独立的页面,其中包含对该概念的全面丰富的内容介绍(content)。

Wikipedia 具有开放式的分类,不局限于特定的层次分类。每个概念根据不同角度可以归入不同的类别,即每个概念可以属于一个或多个分类(category)。Strube et al [29] 最早提出基于 Wikipedia 的语义相关度计算方案——WikiRelate。他们使用 Wikipedia 的分类节点为代表词,计算节点之间的最短路径衡量词的相关程度,达到了与 WordNet 相当的效果。Gabrilovichet al [30] 提 出 了 显 式 语 义 分 析(ESA,ExplicitSemantic Analysis) 模型,他们首先将文本表示成高维 Wikipedia 概念向量,通过计算向量余弦相似度等得到文本之间的相关程度。这种将文本表示成概念集合的方式易于理解,且语义表示能力较强。

Witten et al [31] 在前人工作基础上,提出了WLM(theWikipedia Link-based Measure)度量方法,主要使用 Wikipedia 概念中包含的大量超链接,而非分类和概念文章内容,反映文本的语义信息。类似的方法还有文献 [32-33]。由于 Wikipedia 蕴含着丰富的语义知识,已有工作大都采用词匹配或检索方法将文本映射到Wikipedia 的概念网络,并以此作为对文本的补充。然而,由于 Wikipedia 页面中的信息过多,引入整个页面较易导致噪音问题。此外,中文维基百科的质量远不及英文,也会限制中文相关的研究工作。哈尔滨工业大学的张牧宇博士根据认知心理学中的联想主义理论将背景知识 ( 例如 Wikipedia) 表示为统一的三元组结构后,将其引入到篇章语义分析中,并将分析结果用于检测篇章语义的连贯性,以衡量联想背景知识的效果[34] 。

框架语义学(Frame Semantic)是由 Fillmoreet al [35] 在格语法基础上,进一步提出的研究词语意义和句法结构意义的语义学理论。该理论认为,词汇的语义必须跟具体的认知结构相联系,同一个词语在不同的结构中可能具有不同的语义,而这里所说的认知结构即为“框架”。框架语义学认为,词语的意义通常与人脑中预先存在的概念结构相互联系,而这些概念结构又与个体所处的具体情境有关,涉及到实体属性、社会制度、行为模式等语义框架的约束。因此,人们可以根据自己的经验刻画不同的背景框架,并进而对同一个框架下的各个词语定义具体的框架元素。该项目最早起源于美国加州大学伯克利分校于 1997 年开始的一个以框架语义学为理论基础,以真实语料为事实依据的计算机词典编撰工程,且至今仍在进行。

目前为止,FrameNetV1.5 已构建了 960 个语义框架,覆盖 11 600 个词汇,其中超过 6 800 个词汇被完全标注,已标注 15万多个例句,并仍然在不断扩充。从整体上来说,以背景知识为核心的篇章语义分析研究中,文本语义信息通过人工构建的背景知识资源体现,分析过程也围绕相应资源来展开。根据知识源的特点,分析过程和侧重点也各不相同。具体而言,语义词典(Dictionary)和在线百科(Online Encyclopedia)相对宽泛,适用于多种语义信息需求以及丰富的应用场景;框架语义学(FrameNet)以动词为核心,通过构建“语义框架”将语义知识转化为计算机词典,用词义间的关联反映语义,此方法信息丰富,对语义的刻画相对完整,便于计算机使用,所提供的语义信息可以用于各种应用,价值很高。缺点在于严重依赖于背景知识资源的覆盖率,对资源质量要求很高;而此类资源又大都专业性较强,构建过程耗时耗力,很难形成规模,难以穷尽现实场景,从而限制了实用性。基于在线百科的资源又存在噪音较大,信息不够精确等问题。

时间: 2024-12-09 04:47:35

《中国人工智能学会通讯》——7.17 篇章语义分析方法概述的相关文章

《中国人工智能学会通讯》——3.8 主要方法概述

3.8 主要方法概述 跨网络链接预测方法--跨网络匹配 从更广义的角度来说,跨网络链接预测不仅可以用于上述的发现并集成同一用户在不同社交网络的不同账号[5] ,还能用于异构数据源间的实体匹配 [4]以及跨网络合作关系推荐[6]等.这里主要的挑战是跨网络之间的链接往往非常稀疏:同时由于两个网络可能高度异构,使网络间节点共性少.关联度低. 用户名匹配:最简单的方法是直接使用用户名进行匹配,或者计算不同网络之间用户名的相似度.Zafarani 等[7-8]最早提出使用用户名前缀.后缀进行不同网络用户账

《中国人工智能学会通讯》——7.15 篇章语义分析 :让机器读懂文章

7.15 篇章语义分析 :让机器读懂文章 自然语言处理的研究从词汇.词典的研究起步,近年来一直把句子作为核心的研究对象,对篇章的语义分析多是语言学家从理论上进行探索,计算机科学家对篇章范围语义现象的关注有限.但是,很多语义问题必须在篇章层面上才能够得到根本性的解决,比如"共指消解"."语义关系识别"和"事件融合与关系识别"等.同时,这些篇章级语义问题的解决对于词汇级和句子级的分析同样具有反哺性的指导意义.近年来,中文词汇.句子级自然语言处理技术的

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智