用于自然语言处理的数据集集锦

在开始研究自然语言处理深度学习的时候，你需要有数据集来练习编程。

最好使用小的数据集，因为下载速度比较快，并且不用花太长的时间来适应模型。此外，使用容易理解并且广泛使用的标准数据集也是有帮助的，这能让你对结果进行比较，看看自己是否取得了进展。

本文介绍了一套用于自然语言处理任务的标准数据集，在你研究深度学习的时候可以使用。

概述

本文分为7个部分，包括：

文本分类
语言建模
图像字幕
机器翻译
问题回答
语音识别
文档摘要

我提供了不少的数据集，它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。

让我们开始吧。

用于自然语言处理的数据集

1. 文本分类

文本分类是指对语句或者文档打标签，例如电子邮件分类和情感分析。

下面是一些不错的的初级文本分类数据集。

路透社Newswire主题分类（路透社21578）。 1987年在路透社出现的一系列新闻文档，按类别排列。另见RCV1、RCV2和TRC2。
IMDB电影评论情感分类（斯坦福德）。从imdb.com网站收集的电影评论及其积极或消极的情绪。
新闻组电影评论情感分类（cornell）。

要获取有关更多信息，请参阅文章：

单标签文本分类数据集。

2. 语言建模

语言建模涉及到开发一个统计模型，该模型用于预测语句中的下一个单词，或者单词中的下一个字母。它是语音识别和机器翻译的前置任务。

下面是一些不错的的初级语言建模数据集。

Gutenberg项目，一大批免费的书籍，可以用各种语言进行检索。

还有更多正式的语料库可以用来研究，例如：

布朗大学现代美国英语标准语料库。一大堆英文单词。
谷歌的10亿单词语料库。

3. 图像字幕

图像字幕是为给定图像生成一段文本描述。

下面是一些不错的初级图像字幕数据集。

上下文中的常用对象（COCO）。收集了超过12万张图片及其描述
Flickr 8K。从flickr.com拍摄的8000张添加了描述信息的图像集合。
Flickr 30K。从flickr.com拍摄的3万张添加了描述信息的图像集合。

要获取更多信息请阅读这篇文章：

探索图像字幕数据集， 2016

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言。

下面是一些不错的初级机器翻译数据集。

第36届加拿大国会记事录。成对的英文和法文句子。
欧洲议会会议平行语料库1996-2011。欧洲语种的语句集。

还有大量用于年度机器翻译挑战赛的标准数据集：

统计机器翻译

5. 问题回答

问题回答是从问题中提供一个句子或文本样例，并回答这个问题。

下面是一些不错的初级问题回答数据集。

斯坦福问答集（SQuAD）。关于维基百科文章的问答。。
DeepMind问答语料库。对来自于每日邮报的文章的问答。
亚马逊问答数据。有关亚马逊产品的问答。

要获取更多信息请阅读这篇文章：

数据集：如何获取问答网站（如Quora、Yahoo Answers、Stack Overflow等等）的语料库来分析答案的质量？

6. 语音识别

语音识别是将口语音频转换为人类可读的文本。

下面是一些不错的初级语音识别数据集。

TIMIT连续语音语料库。不免费，收录在这里是因为它的使用实在是太广泛了。美国英语口语和相关的翻译。
VoxForge。一个建立语音识别开源数据库的项目。
LibriSpeech ASR语料库。从LibriVox获取到的大量英文有声读物。

7. 文档摘要

文档摘要是为文档创建一个简短而有意义的描述。

下面是一些不错的初级文档摘要数据集。

法律案件报告数据集。收集了4000个法律案件及其总结。
TIPSTER文摘评估会议语料库。收集了近200份文件及其摘要。
英文新闻AQUAINT语料库。不免费，但使用很广泛。新闻文章语料库。

欲了解更多信息，请参看：

进一步阅读

如果你打算进一步学习，这里还提供了其他一些数据集。

小结

本文介绍了一组标准的数据集，在开始研究深度学习的时候，你可以使用这些标准数据集进行自然语言处理。

文章原标题《Datasets for Natural Language Processing》，作者：Jason Brownlee，译者：夏天，审校：主题曲。

文章为简译，更为详细的内容，请查看原文

时间： 2024-11-01 21:27:40

用于自然语言处理的数据集集锦的相关文章

DARPA 开发用于自然语言处理的深度学习项目

美国国防部高级研究计划局(DARPA)正在开发能够更好理解人类语言的深度学习技术,可以自动向情报分析人员汇报有用信息. 提到人工智能和自然语言处理,人们会想到谷歌.微软和雅虎等公司,却忽略了另外一条技术鲶鱼--DARPA.后者目前正在开发的一个"文本深度发掘与过滤"项目(DEFT),能够分析人类自身难以胜任的超大规模文本处理工作. 从DARPA的官网我们了解到这个项目启动与2012年中,至今已经开展了四年半时间,以下是DARPA官网对DEFT项目的介绍: 自动化的深度自然语言处理(NL

深度学习必备手册（上）

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册--博客整理系列(六) 深度学习的概念源于人工神经网络的研究,如果追溯深度学习的概念还是要回到2006年Hinton那篇论文,基于深信度网(DNB)提出非监督贪心逐层训练算法,未解决深层结构相关的优化难题出现的论文.

自然语言处理数据集免费资源开放（附学习资料）

在你刚开始入手自然语言处理任务时,你需要数据集来练习. 最好是使用小型数据集,这样你可以快速下载,也不用花费很长的时间来调试模型.同时,使用被广泛使用和了解的标准数据集也是有所帮助的,你可以用你的结果来做比较,看一下是否有所进步. 在这篇博文中,你会找到一系列标准数据集来开始你的深度学习之旅. 总览这篇博文被分成七个部分,它们是: 1. 文本分类(Text Classification) 2. 语言模型(Language Modeling) 3. 图像字幕(Image Captioning

面向机器学习的自然语言标注.

面向机器学习的自然语言标注 James Pustejovsky & Amber Stubbs 著邱立坤金澎王萌译图书在版编目(CIP)数据面向机器学习的自然语言标注 / (美) 詹姆斯·普斯特若夫斯基(James Pustejovsky),安伯·斯塔布斯(Amber Stubbs)著:邱立坤,金澎,王萌译. -北京:机械工业出版社, 2017.1 (O'Reilly精品图书系列) 书名原文:Natural Language Annotation for Machine Learnin

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

作者:Vineet John 机器之心编译参与:吴攀.李亚洲.蒋思源文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布了一篇关于用于文本特征提取的神经网络技术的综述论文.机器之心对该论文进行了编译介绍,论文原文可点击文末「阅读原文」查阅. https://arxiv.org/abs/1704.08531 本论文的目标是促进有关使用神经网络架构的文本特征提取技术的讨论.本论文中所讨论的研究问题关注的是当前最佳的神经网络技术,它们已经

面向机器学习的自然语言标注1.1 语言标注的重要性

基础知识人们几乎每天都会教计算机去解决一些新的激动人心的问题,这些问题包括如何在国际象棋比赛或"危险边缘"节目译注1中取胜,以及驾驶车辆时的最短路径选择.但仍有大量的问题是计算机不能完成的,特别是在理解人类语言方面.已经证明统计方法是解决这一问题的有效途径,但当可以为机器学习(Machine Learning, ML)算法提供关于数据集所包含信息的数据线索提示而不仅仅是数量巨大的数据时,ML通常可以产生更好的效果.讨论自然语言时,这些提示通常以标注的形式呈现--提供关于文本额外信息的

数据至上的人工智能时代，哪些公开数据集最适合？

现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark,再加上通过 AWS 的大规模计算力.Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型. 虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据.研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤. 然而,涉及到机器学习或人工智能的大多数产品强烈依赖于

机器学习算法集锦

机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.严格的定义:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问.这里所说的"机器",指的就是计算机,电子计算机,中子计算机.光子计算机或神经计算机等等. 机器学习概论由上图所示:机器学习分为四大块: classific

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

长短期记忆循环神经网络等几乎可以完美地模拟多个输入变量的问题,这为时间序列预测带来极大益处.本文介绍了如何在 Keras 深度学习库中搭建用于多变量时间序列预测的 LSTM 模型. 诸如长短期记忆(LSTM)循环神经网络的神经神经网络几乎可以无缝建模具备多个输入变量的问题. 这为时间序列预测带来极大益处,因为经典线性方法难以适应多变量或多输入预测问题. 通过本教程,你将学会如何在 Keras 深度学习库中搭建用于多变量时间序列预测的 LSTM 模型. 完成本教程后,你将学会: 如何将原始数据集转