自然语言处理数据集免费资源开放(附学习资料)

在你刚开始入手自然语言处理任务时,你需要数据集来练习。

最好是使用小型数据集,这样你可以快速下载,也不用花费很长的时间来调试模型。同时,使用被广泛使用和了解的标准数据集也是有所帮助的,你可以用你的结果来做比较,看一下是否有所进步。

在这篇博文中,你会找到一系列标准数据集来开始你的深度学习之旅。

 

总览


这篇博文被分成七个部分,它们是:

1. 文本分类(Text Classification)

2. 语言模型(Language Modeling)

3. 图像字幕(Image Captioning)

4. 机器翻译(Machine Translation)

5. 问答系统(Question Answering)

6. 语音识别(Speech Recognition)

7. 自动文摘(Document Summarization)

 

我已经尝试提供一系列被广泛使用于学术论文且规模适中的数据集。

几乎所有的数据集都是公开免费下载的。

如果你最喜欢的数据集没有被列出来,又或者你认为你所了解的更好的数据集应该被列出来的话,请在评论里告诉我。

我们开始吧。

 

1. 文本分类(Text Classification)


文本分类指的是标记句子或者文档,比如说垃圾邮件分类和情感分析。

以下是一些对于新手而言非常棒的文本分类数据集:

  • Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)。

一系列1987年在路透上发布的按分类索引的文档。同样可以看RCV1,RCV2,以及TRC2

(http://trec.nist.gov/data/reuters/reuters.html)。

  • IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)。

一系列从网站imdb.com上摘取的电影评论以及他们的积极或消极的情感。

  • News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)。

 

更多的信息,可以从这篇博文中获取:Datasets for single-label text categorization

(http://ana.cachopo.org/datasets-for-single-label-text-categorization)。

 

2. 语言模型(Language Modeling)

语言模型涉及建设一个统计模型来根据给定的信息,预测一个句子中的下一个单词,或者一个单词中的下一个字母。这是语音识别或者机器翻译等任务的前置任务。

下面是一些对于新手来说非常棒的语言模型数据集:

  • Project Gutenberg

    (https://www.gutenberg.org/)。

以下是一些更正式的语料集:

  • Brown University Standard Corpus of Present-Day American English

    (https://en.wikipedia.org/wiki/Brown_Corpus)。

大型英语单词示例。

  • Google 1 Billion Word Corpus

    (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。

 

3. 图像字幕(Image Captioning)


图像字幕是为给定图像生成文字描述的任务。

以下是对新手非常有帮助的图像字幕数据集:

  • Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)。

超过120,000张带描述的图片集合。

  • Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。

从flickr.com收集的超过8000带描述的图片集合。

  • Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)。

从flickr.com收集的超过30000带描述的图片集合。

要获得更多的资讯,可以看这篇博客:Exploring Image Captioning Datasets, 2016

(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)。

 

4. 机器翻译(Machine Translation)


机器翻译即将一种语言翻译成另一种语言的任务。

以下是对新手而言很棒的机器翻译数据集:

  • Aligned Hansards of the 36th Parliament of Canada

    (https://www.isi.edu/natural-language/download/hansard/)。

英法对应的句子。

  • European Parliament Proceedings Parallel Corpus 1996-2011

    (http://www.statmt.org/europarl/)。

一系列欧洲语言的成对句子。

被用于机器翻译的标准数据集还有很多:

  • Statistical Machine Translation

    (http://www.statmt.org/)。

 

5. 问答系统(Question Answering)

以下是对新手而言很棒的问答系统数据集:

  • Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)。

关于维基百科文章的问答。

  • Deepmind Question Answering Corpus

(https://github.com/deepmind/rc-data)。

有关Daily Mail的新闻问答。

  • Amazon question/answer data

(http://jmcauley.ucsd.edu/data/amazon/qa/)。

关于亚马逊产品的问答。

更多信息,参见:

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)

 

6. 语音识别(Speech Recognition)


语音识别就是将口语语言的录音转换成人类可读的文本。

以下是对新手而言很棒的语音识别数据集:

  • TIMIT Acoustic-Phonetic Continuous Speech Corpus

(https://catalog.ldc.upenn.edu/LDC93S1)。

付费,这里列出是因为它被广泛使用。美语口语以及相关转写。

  • VoxForge(http://voxforge.org/)。

为语音识别而建设开源数据库的项目。

  • LibriSpeech ASR corpus

(http://www.openslr.org/12/)。

从LibriVox(https://librivox.org/)获取的英语有声书大型集合。

 

7. 自动文摘(Document Summarization)


自动文摘即产生对大型文档的一个短小而有意义的描述。

以下是对新手而言很棒的自动文摘数据集:

  • Legal Case Reports Data Set

(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。

4000法律案例以及摘要的集合。

  • TIPSTER Text Summarization Evaluation Conference Corpus

(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。

将近200个文档以及摘要的集合。

  • The AQUAINT Corpus of English News Text

(https://catalog.ldc.upenn.edu/LDC2002T31)。

并非免费,但却被广泛使用。新闻文章的语料库。

更多信息,参见:

Document Understanding Conference (DUC) Tasks

(http://www-nlpir.nist.gov/projects/duc/data.html)

Where can I find good data sets for text summarization?

(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)

 

延伸阅读


如果你想了解更多,这部分提供额外的数据集列表:

  • Text Datasets Used in Research on Wikipedia

(https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)

  • Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?

(https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)

  • Stanford Statistical Natural Language Processing Corpora

(https://nlp.stanford.edu/links/statnlp.html#Corpora)

  • Alphabetical list of NLP Datasets

(https://github.com/niderhoff/nlp-datasets)

  • NLTK Corpora(http://www.nltk.org/nltk_data/)
  • Open Data for Deep Learning on DL4J

(https://deeplearning4j.org/opendata)

原文发布时间为:2017-10-02

本文作者:Jason Brownlee

时间: 2024-08-28 13:51:52

自然语言处理数据集免费资源开放(附学习资料)的相关文章

综述 | 一文读懂自然语言处理NLP(附学习资料)

前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义.在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理. 早期的自然语言处理具有鲜明的经验主义色彩.如 1913 年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是"手工查频&quo

【UNREAL ENGINE 游戏开发】开篇之为什么现在就要抱紧UE的大腿!(另附学习资料/交流群)

本站文章均为 李华明Himi 原创,转载务必在明显处注明:  转载自[黑米GameDev街区] 原文链接: http://www.himigame.com/unreal-engine-game/2129.html 自从开始自学Unreal Engine后,身边的朋友.群里的童鞋们都在问:Himi,为什么要转UE了?UE到底好在哪里?与U3D比优势到底在哪里?等各种问题.而且解释过的问题,等会还要再解释给没看到的童鞋们 - 所以Himi特意来写篇博文,统一解释UE对于我为什么会有这么大的诱惑力!

独家 | 一文读懂自然语言处理NLP(附学习资料)

前言                                               自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义.在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理. 早期的自然语言处理具有鲜明的经验主义

【2万赞】一文读懂深度学习(附学习资源)

Image credit: Datanami   人工智能(AI)和机器学习(ML)都属于目前最热门的话题. 在日常生活中,AI这个术语我们随处可见.你或许会从立志高远的开发者那里听说她(他)们想要学习AI.你又或许会从运营者那里听到他们想要在他们的的服务中实施AI.但往往这些人中的绝大多数都并不明白什么是AI. 在你阅读完这篇文章之后,你将会了解AI和ML的基本知识.而更重要的是,你将会明白深度学习(https://en.wikipedia.org/wiki/Deep_learning),这类

怎样找到一份深度学习的工作 | 附学习材料,资源与建议

如果你是一个软件工程师(或者你现在正在学习这一方面),你肯定有机会听说过深度学习(有时候深度学习缩写为"DL").它现在是一个热门.且快速发展的研究领域,解决工业界的一系列问题,从图像识别.手写识别到机器翻译,更甚于AlphaGo4比1击败了世界围棋冠军.  大部分人认为找与深度学习相关的工作应该具有博士学位或者大量的相关经验,但是如果你已经是一名很好的工程师,那你就可以很快.很好的学习这些必要的技能和技巧.至少,这是我们的观点.(即使你是深度学习的初学者,非常欢迎您加入我们的职位申请

小白|怎样从编程零基础入行分析领域(附学习资源)

怎么从编程零基础到可以在科技和分析领域工作? 如果你对学习这些技能感兴趣,不管是为了开心还是职业转换,哪条路是最好的呢? 市面上有无数个网课清单,但你要怎样分辨出最适合你的那一条路? 我自己从没想过我会学习任何这方面的实操技能,像编程.数据分析.或相关科技.鉴于我是金融专业的,我总是设想我会成为一名"商务人士".但不知怎么的,我自学了Python和SQL,而且还在"Jet.com"找到了分析领域的工作,每天都会用到这些语言中的一种. 你可能会问,为什么要学习Pyth

独家 | 一文读懂社交网络分析-上(附学习资源)

本文主要阐述: 社交网络的结构特性与演化机理 社交网络群体行为形成与互动规律 社交网络信息传播与演化机理 浏览后四章的内容请见下篇(2017年9月26日二条). 前言 社交网络在维基百科的定义是"由许多节点构成的一种社会结构.节点通常是指个人或组织,而社交网络代表着各种社会关系."在互联网诞生前,社交网络分析是社会学和人类学重要的研究分支.早期的社交网络的主要指通过合作关系建立起来的职业网络,如科研合作网络.演员合作网络等. 本文所指的社交网络分析专指在线社交网络分析(Online S

免费资源是网站推广新手学习的源泉

想要学习网络营销(www.huazon.com)的新手,不会建站之前,都会认为网站建设技术非常重要,其实建站技术只是一种工具而已,不一定自己非要去学习它,花不了多少钱就可以买来的.我们所要掌握的重点,是怎样利用这个工具来赚钱,怎样得心应手地操作这个工具.下面网站推广编辑就来和大家简单谈谈如何利用免费资源学习网络http://www.aliyun.com/zixun/aggregation/8073.html">营销推广. 一.热门论坛.通过热门的论坛来学习发表一些高浏览量的网站推广文章,8

哪里有免费的开放数据集

问题描述 哪里有免费的开放数据集 正在做一个作业,需要免费的开放数据集,不管是什么类型的数据,只要是开放的免费数据集就可以,求链接 解决方案 这种问题建议自己google