2.2 背景研究
既然你已经考虑了哪些语言学层次适合标注任务,那么可以对相关研究工作进行了解。虽然建立标注语料库要花费许多工夫,完全由自己单独地完成一个好的标注任务也是可能的,但是首先了解业界的相关研究与发展现状将可以节省大量的时间和精力。很可能已有的一些研究与你正在进行的工作有关,从而使你不必一切从头做起。
例如,如果对时间标注感兴趣,现在ISO-TimeML已成为时间与事件标注方面(包括时间关系)的国际标准化组织标准。这一事实并不要求所有的时间标注都必须原样不动地使用ISO-TimeML的标注方案。在诸如医学和生物医学文本分析的领域中,TimeML可作为有用的起点,但是在有些情况下它给标注人员提供了太多的选项,在另一些情况下则没有覆盖与所在领域相关的一些特殊用例。了解其他人在已有的标注方案中进行的工作,特别是与你的标注计划直接相关的工作,可使你自己的标注任务的规划变得更加
容易。
图书馆和谷歌经常能够提供好的信息来源,但可能并没有提供关于标注项目的最新信息,主要因为计算语言学领域最主要的论文发表途径是会议及其相关的研讨会。在下面的几节中我们将给出一些比较有价值的组织与研讨会的相关信息。
2.2.1 语言资源
目前有一些来源可以提供预装的语料库。例如,语言数据联盟(Linguistic Data Consortium, LDC)有一个包含成百上千个语料库的集合,覆盖文本和语音数据,涉及多种语言。其中的大部分语料库非会员均可获取(有时需要支付一定费用),但有一部分必须是LDC会员才能使用。语言数据联盟由宾夕法尼亚大学负责维护运行,涉及会员资源和语料库价格的细节问题在其网站上均有详细解答。
欧洲语言资源协会(European Language Resources Association, ELRA)是另一个重要的语料库来源,它同样包含来自多种语言的口语和书面语语料库。与LDC一样,申请成为ELRA会员后,即可获取整个资源库的访问权,当然也可以仅仅使用其中某个语料库。更多信息可从ELRA网站上获取。
另一个有用的来源是语言资源与评价(Linguistic Resources and Evaluation, LRE)地图,它可以提供过去若干年中提交给语言资源与评价会议(Linguistic Resources and Evaluation Conference, LREC)的论文中所使用的全部资源。但是,这一列表未经确认,因此并不是所有入口都是有效的。关于这一映像的语料库和标注资源的缩减版可从本书的附录中找到。
获得一个最新版本的语料库往往需要支付一定的费用,但是借助LDC和ELRA,有可能免费下载该语料库的一个更早版本。所以,在研究资金匮乏时寻求替代性获取方式是有价值的。无论从何处获取,均应对将要使用的语料库进行许可检查,以保证可以合法地使用。
2.2.2 机构与会议
许多面向公众开放使用的标注工作都是在大学里完成的,这使得会议论文集成为获取相关标注任务信息的最佳起点。下面列举了一些研究语料标注与语料库的较大会议及对这些主题感兴趣的学术组织。
计算语言学协会(Association for Computational Linguistics, ACL)
电气和电子工程师学会(Institute of Electrical and Electronics Engineer, IEEE)
语言资源与评价会议(Language Resources and Evaluation Conference, LREC)
欧洲语言资源协会(European Language Resources Association, ELRA)
国际计算语言学会议(Conference on Computational Linguistics, COLING)
美国医学信息学协会(American Medical Informatics Association, AMIA)
LINGUIST目录并不是发起会议与研讨会的组织,但它持续提供相关会议的最新征稿与日期信息,也提供可根据语言学层次排序的语言学组织列表。
2.2.3 自然语言处理竞赛
在过去的多年中,由研讨会主办的自然语言处理竞赛越来越常见。这些竞赛通常给出一个语言学问题、一个训练和测试数据集,并要求参赛队或个体参赛者在一个有限的时间内开发出算法或规则集以便在测试集上取得尽可能好的结果。
这些竞赛主题范围广泛,从词性标注到词义消歧和生物医学文本分析,并且不局限于英语。主要的相关研讨会包括:
SemEval
该研讨会作为ACL年会的一个组成部分每3年举办一次。它涉及词义消歧、时间与空间推理和机器翻译在内的多种竞赛。
自然语言学习会议(Conference on Natural Language Learning, CoNLL)共享任务
这是由国际计算语言学协会自然语言学习特别兴趣组主办的自然语言处理竞赛,每年一次。每年,它选择一个新的自然语言处理任务举办竞赛。已进行的竞赛包括不确定性检测、句法和语义依存分析和多语言处理等。
i2b2自然语言处理共享任务
i2b2组关注医学领域中的自然语言处理,每年举办关于病人档案信息推理方面的竞赛。过去的竞赛集中于疾病、吸烟状态和药物信息识别方面。
还有其他一些可供参加的共享任务和竞赛:NIST TREC Tracks每年举办一次,BioNLP研讨会也经常举办共享任务,还有更多的其他任务。如果你想进行某项机器学习任务,但并不希望亲自构造一个标注数据集,签约参加一个此类竞赛是融入自然语言处理社区的一个好方式。自然语言处理竞赛的用处还在于在缺乏时间和资金支持的情况下可以为某些任务提供较好的参考。然而,需要注意的是,自然语言处理竞赛面临的时间限制意味着所得到的结果就整体而言可能并不是最好的,而仅仅是在给定时间和数据前提下的最佳。