面向机器学习的自然语言标注2.2 背景研究

2.2 背景研究

既然你已经考虑了哪些语言学层次适合标注任务,那么可以对相关研究工作进行了解。虽然建立标注语料库要花费许多工夫,完全由自己单独地完成一个好的标注任务也是可能的,但是首先了解业界的相关研究与发展现状将可以节省大量的时间和精力。很可能已有的一些研究与你正在进行的工作有关,从而使你不必一切从头做起。

例如,如果对时间标注感兴趣,现在ISO-TimeML已成为时间与事件标注方面(包括时间关系)的国际标准化组织标准。这一事实并不要求所有的时间标注都必须原样不动地使用ISO-TimeML的标注方案。在诸如医学和生物医学文本分析的领域中,TimeML可作为有用的起点,但是在有些情况下它给标注人员提供了太多的选项,在另一些情况下则没有覆盖与所在领域相关的一些特殊用例。了解其他人在已有的标注方案中进行的工作,特别是与你的标注计划直接相关的工作,可使你自己的标注任务的规划变得更加

容易。

图书馆和谷歌经常能够提供好的信息来源,但可能并没有提供关于标注项目的最新信息,主要因为计算语言学领域最主要的论文发表途径是会议及其相关的研讨会。在下面的几节中我们将给出一些比较有价值的组织与研讨会的相关信息。

2.2.1 语言资源

目前有一些来源可以提供预装的语料库。例如,语言数据联盟(Linguistic Data Consortium, LDC)有一个包含成百上千个语料库的集合,覆盖文本和语音数据,涉及多种语言。其中的大部分语料库非会员均可获取(有时需要支付一定费用),但有一部分必须是LDC会员才能使用。语言数据联盟由宾夕法尼亚大学负责维护运行,涉及会员资源和语料库价格的细节问题在其网站上均有详细解答。

欧洲语言资源协会(European Language Resources Association, ELRA)是另一个重要的语料库来源,它同样包含来自多种语言的口语和书面语语料库。与LDC一样,申请成为ELRA会员后,即可获取整个资源库的访问权,当然也可以仅仅使用其中某个语料库。更多信息可从ELRA网站上获取。

另一个有用的来源是语言资源与评价(Linguistic Resources and Evaluation, LRE)地图,它可以提供过去若干年中提交给语言资源与评价会议(Linguistic Resources and Evaluation Conference, LREC)的论文中所使用的全部资源。但是,这一列表未经确认,因此并不是所有入口都是有效的。关于这一映像的语料库和标注资源的缩减版可从本书的附录中找到。

获得一个最新版本的语料库往往需要支付一定的费用,但是借助LDC和ELRA,有可能免费下载该语料库的一个更早版本。所以,在研究资金匮乏时寻求替代性获取方式是有价值的。无论从何处获取,均应对将要使用的语料库进行许可检查,以保证可以合法地使用。

2.2.2 机构与会议

许多面向公众开放使用的标注工作都是在大学里完成的,这使得会议论文集成为获取相关标注任务信息的最佳起点。下面列举了一些研究语料标注与语料库的较大会议及对这些主题感兴趣的学术组织。

计算语言学协会(Association for Computational Linguistics, ACL)

电气和电子工程师学会(Institute of Electrical and Electronics Engineer, IEEE)

语言资源与评价会议(Language Resources and Evaluation Conference, LREC)

欧洲语言资源协会(European Language Resources Association, ELRA)

国际计算语言学会议(Conference on Computational Linguistics, COLING)

美国医学信息学协会(American Medical Informatics Association, AMIA)

LINGUIST目录并不是发起会议与研讨会的组织,但它持续提供相关会议的最新征稿与日期信息,也提供可根据语言学层次排序的语言学组织列表。

2.2.3 自然语言处理竞赛

在过去的多年中,由研讨会主办的自然语言处理竞赛越来越常见。这些竞赛通常给出一个语言学问题、一个训练和测试数据集,并要求参赛队或个体参赛者在一个有限的时间内开发出算法或规则集以便在测试集上取得尽可能好的结果。

这些竞赛主题范围广泛,从词性标注到词义消歧和生物医学文本分析,并且不局限于英语。主要的相关研讨会包括:

SemEval

该研讨会作为ACL年会的一个组成部分每3年举办一次。它涉及词义消歧、时间与空间推理和机器翻译在内的多种竞赛。

自然语言学习会议(Conference on Natural Language Learning, CoNLL)共享任务

这是由国际计算语言学协会自然语言学习特别兴趣组主办的自然语言处理竞赛,每年一次。每年,它选择一个新的自然语言处理任务举办竞赛。已进行的竞赛包括不确定性检测、句法和语义依存分析和多语言处理等。

i2b2自然语言处理共享任务

i2b2组关注医学领域中的自然语言处理,每年举办关于病人档案信息推理方面的竞赛。过去的竞赛集中于疾病、吸烟状态和药物信息识别方面。

还有其他一些可供参加的共享任务和竞赛:NIST TREC Tracks每年举办一次,BioNLP研讨会也经常举办共享任务,还有更多的其他任务。如果你想进行某项机器学习任务,但并不希望亲自构造一个标注数据集,签约参加一个此类竞赛是融入自然语言处理社区的一个好方式。自然语言处理竞赛的用处还在于在缺乏时间和资金支持的情况下可以为某些任务提供较好的参考。然而,需要注意的是,自然语言处理竞赛面临的时间限制意味着所得到的结果就整体而言可能并不是最好的,而仅仅是在给定时间和数据前提下的最佳。

时间: 2024-10-06 09:40:51

面向机器学习的自然语言标注2.2 背景研究的相关文章

面向机器学习的自然语言标注.

面向机器学习的自然语言标注 James Pustejovsky & Amber Stubbs 著 邱立坤 金澎 王萌 译 图书在版编目(CIP)数据 面向机器学习的自然语言标注 / (美) 詹姆斯·普斯特若夫斯基(James Pustejovsky),安伯·斯塔布斯(Amber Stubbs)著:邱立坤,金澎,王萌译. -北京:机械工业出版社, 2017.1 (O'Reilly精品图书系列) 书名原文:Natural Language Annotation for Machine Learnin

面向机器学习的自然语言标注导读

前言 本书的读者是那些使用计算机来处理自然语言的人.自然语言是指人类所说的任何一种语言,可以是当代语言(如英语.汉语.西班牙语),也可以指过去曾经使用过的语言(如拉丁语.古希腊语.梵语).标注(annotation)是一个过程,它通过向文本中加入元数据来增强计算机执行自然语言处理(Natural Language Processing, NLP)的能力.特别地,我们考察如何通过标注将信息加入自然语言文本中以便改善机器学习(Machine Learning,ML)算法(一组设计好的计算机程序,它从

面向机器学习的自然语言标注1.1 语言标注的重要性

基础知识 人们几乎每天都会教计算机去解决一些新的激动人心的问题,这些问题包括如何在国际象棋比赛或"危险边缘"节目译注1中取胜,以及驾驶车辆时的最短路径选择.但仍有大量的问题是计算机不能完成的,特别是在理解人类语言方面.已经证明统计方法是解决这一问题的有效途径,但当可以为机器学习(Machine Learning, ML)算法提供关于数据集所包含信息的数据线索提示而不仅仅是数量巨大的数据时,ML通常可以产生更好的效果.讨论自然语言时,这些提示通常以标注的形式呈现--提供关于文本额外信息的

面向机器学习的自然语言标注2.4 语料库的规模

2.4 语料库的规模 既然你已经知道想要寻找何种类型的数据以及如何表现它,那么你还需要决定实际需要收集与标注多少数据.如果你计划使用一个已有的语料库,那么语料库的总规模已经确定,但是你可能仍然需要决定对语料库的多少内容进行标注. 一般而言,无论标注目标是什么,收集与标注的数据越多,就离达成目标越近.然而,在多数情况下,在讨论语言标注任务时"越大越好"并不是切实可行的--时间.金钱.有限的资源以及精力都可能是限制你和你的标注人员能完成标注规模的因素. 注意: 如果这是你收集数据工作的第一

面向机器学习的自然语言标注1.4 标注开发循环

1.4 标注开发循环 对具体语言学现象进行编码的特征必须足够丰富,以便捕获训练算法中的预期行为.这些语言学描述通常来自对语言现象的理论建模.这些描述反过来形成了具体语言标注的基础,其自身可以作为特征用于训练和测试文本识别或标注算法的开发循环中.最后,基于对系统性能的分析和评价,语言现象的模型可能需要修改,进而可以重新训练和测试. 我们把这个开发循环称为MATTER方法,如图1-10所示(Pustejovsky 2006).   图1-10: MATTER循环 建模 结构化描述提供了有理论依据的属

面向机器学习的自然语言标注1.3 语言数据和机器学习

1.3 语言数据和机器学习 我们已经介绍了语言标注方法及其语言数据标注格式的例子,接下来将描述基于这些标注语料库的计算框架,即机器学习.机器学习是人工智能的一个分支,研究如何根据经验和已有数据学习和改善性能的算法.它们学习(或生成)一个函数,将具体的输入数据映射为想要的输出.就我们的目标而言,机器学习算法处理的"数据"是自然语言,最常见的格式是文本,更典型的是标注突显具体特征的标签,这些特征与学习任务相关.正如我们将要看到的,前面所讨论的标注为机器学习流程(训练阶段)提供了丰富的输入数

面向机器学习的自然语言标注2.3 整合数据集

2.3 整合数据集 我们已经讨论整合数据集时需要考虑的一些问题:标注任务的范围.已有语料库是否含有对你有用的文档与标注信息.数据来源的多样化. 如果你计划将你的数据集公开,请确定你已经拥有对所标注信息向第三方重新发布的许可.有时可以仅发布独立的标注信息和从网站上收集数据的代码段,但最佳且最简单的方式是直接向内容提供者申请许可,尤其是当语料库和标注信息将用于商业而不是纯粹的教育目的时. 语料库构建指南 语料库语言学家John Sinclair(约翰·辛克莱尔)就构建语言学语料库提出了一些指南.尽管

面向机器学习的自然语言标注1.2 语料库语言学简史

1.2 语料库语言学简史 20世纪中叶,语言学实际上主要作为一种描述手段,用来研究语言中的结构属性和语言之间的类型差异.这使得构成语言表达的不同信息成分的描写模型相当复杂.在其他社会科学领域中,收集和分析数据一直来自统计学的计量技术.20世纪40年代,语言学家(如Bloomfield)开始思考语言可以用概率和行为主义术语来解释.经验和统计方法在20世纪50年代开始流行,同时香农(Shannon)的信息论给语言分析提供了可靠的量化方法,可以对语言结构进行量化建模. 不幸的是,语言分析的统计和量化方

面向机器学习的自然语言标注3.3 语言模型

3.3 语言模型 n元语法的好处是什么呢?多年来自然语言处理已经利用n元语法开发了预测序列行为的统计语言模型(language model).序列行为涉及在包含多个X的序列中识别下一个X.例如,语音识别.机器翻译等.在给定前一个元素的前提下语言模型预测序列中的下一个元素. 让我们更仔细地看看它是如何工作的,以及如何使用前几章讨论的工具.假设有一个单词序列,w1,w2,?wn.预测序列中的任意"下一个单词"wi可以表示为下面的概率函数:   等价于:   请注意,这里涉及两个联合概率分布