在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。
最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。
本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。
概述
本文分为7个部分,包括:
- 文本分类
- 语言建模
- 图像字幕
- 机器翻译
- 问题回答
- 语音识别
- 文档摘要
我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。
1. 文本分类
文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。
下面是一些不错的的初级文本分类数据集。
- 路透社Newswire主题分类(路透社21578)。 1987年在路透社出现的一系列新闻文档,按类别排列。 另见RCV1、RCV2和TRC2。
- IMDB电影评论情感分类(斯坦福德)。从imdb.com网站收集的电影评论及其积极或消极的情绪。
- 新闻组电影评论情感分类(cornell)。
要获取有关更多信息,请参阅文章:
2. 语言建模
语言建模涉及到开发一个统计模型,该模型用于预测语句中的下一个单词,或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。
下面是一些不错的的初级语言建模数据集。
- Gutenberg项目,一大批免费的书籍,可以用各种语言进行检索。
还有更多正式的语料库可以用来研究,例如:
- 布朗大学现代美国英语标准语料库。一大堆英文单词。
- 谷歌的10亿单词语料库。
3. 图像字幕
图像字幕是为给定图像生成一段文本描述。
下面是一些不错的初级图像字幕数据集。
- 上下文中的常用对象(COCO)。收集了超过12万张图片及其描述
- Flickr 8K。从flickr.com拍摄的8000张添加了描述信息的图像集合。
- Flickr 30K。从flickr.com拍摄的3万张添加了描述信息的图像集合。
要获取更多信息请阅读这篇文章:
- 探索图像字幕数据集, 2016
4. 机器翻译
机器翻译是将文本从一种语言翻译成另一种语言。
下面是一些不错的初级机器翻译数据集。
- 第36届加拿大国会记事录。成对的英文和法文句子。
- 欧洲议会会议平行语料库1996-2011。欧洲语种的语句集。
还有大量用于年度机器翻译挑战赛的标准数据集:
5. 问题回答
问题回答是从问题中提供一个句子或文本样例,并回答这个问题。
下面是一些不错的初级问题回答数据集。
- 斯坦福问答集(SQuAD)。关于维基百科文章的问答。。
- DeepMind问答语料库。对来自于每日邮报的文章的问答。
- 亚马逊问答数据。有关亚马逊产品的问答。
要获取更多信息请阅读这篇文章:
6. 语音识别
语音识别是将口语音频转换为人类可读的文本。
下面是一些不错的初级语音识别数据集。
- TIMIT连续语音语料库。不免费,收录在这里是因为它的使用实在是太广泛了。美国英语口语和相关的翻译。
- VoxForge。一个建立语音识别开源数据库的项目。
- LibriSpeech ASR语料库。从LibriVox获取到的大量英文有声读物。
7. 文档摘要
文档摘要是为文档创建一个简短而有意义的描述。
下面是一些不错的初级文档摘要数据集。
- 法律案件报告数据集。收集了4000个法律案件及其总结。
- TIPSTER文摘评估会议语料库。收集了近200份文件及其摘要。
- 英文新闻AQUAINT语料库。不免费,但使用很广泛。新闻文章语料库。
欲了解更多信息,请参看:
进一步阅读
如果你打算进一步学习,这里还提供了其他一些数据集。
- 维基百科研究使用的文本数据集
- 数据集:计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?
- 斯坦福统计自然语言处理语料库
- 按字母顺序排列的NLP数据集
- NLTK语料库
- DL4J深度学习开放数据
小结
本文介绍了一组标准的数据集,在开始研究深度学习的时候,你可以使用这些标准数据集进行自然语言处理。
文章原标题《Datasets for Natural Language Processing》,作者:Jason Brownlee,译者:夏天,审校:主题曲。
文章为简译,更为详细的内容,请查看原文