70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的APP性能？最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

Wikipedia:Database ：向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中，请求者可能花费一些钱来访问它。

Common crawl ：建立并维护一个开放的网络，向所有人开放。

EDRM File Formats Data Set：由381个文件夹200种文件格式组成。

Apache Mahout TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成，存在两组可下载的压缩文件中：XML和PST。

ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页，包含10种语言。资料库被若干TREC会议的追踪检测使用。

DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

theinfo.org –这是一个大数据集网站，在这里学者、设计师、艺术家等可以交流技巧和窍门，一起开发和共享工具，并开始整合他们独有的项目。

Project Gutenberg 提供超过36000免费电子书的下载，可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

Million song data set：与tracks 和艺术家有关的数据。

AWS (Amazon Web Services) Public Data Sets：提供了可以无缝融入AWS（亚马逊网络服务）云应用的公共数据集的集中存储库。

BigML big list of public data sources.

Bioassay data：研究文章“生物测定数据的虚拟筛选”，由Amanda Schierz编写，有21个生物测定数据集（活性/非生理活性成分），可以下载。

Bitly 1.usa.gov data：匿名点击政府链接。

Canada Open Data：有许多政府和地理空间的数据集的试点项目。

Canada Open Data：许多政府和地理空间数据集的试点项目。

Causality Workbench：数据存储库。

Corral Big Data repository：在德克萨斯高级计算中心，提供以数据为中心的技术。

Data Source Handbook:公开数据指南。

Datacatalogs.org：来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据。

Data.gov.uk：英国的公共可用数据（London datastore也是）。

Data.gov/Education：对于教育数据资源的主要指南，包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

DataMarket：可视化的世界经济、社会、自然和工业，拥有来自联合国，世界银行，欧盟统计局和其他重要数据提供者的一亿时间序列。

Datamob：可以很好利用的公开数据。

DataSF.org：可向City & County of San Francisco, CA.购买的数据集信息交流中心。

DataFerrett：一个用来访问和使用The Data Web的数据挖掘工具，许多网上美国政务数据集的集合。

EconData：大量经济学的时间序列，由许多美国政府机构编制。

Enron Email Dataset：来自大约150个用户的数据，这些用户大多数是安然公司高级管理人员。

Europeana Data：包含2000万文字，图片，视频开放的元数据，以及由欧洲数位图书馆收集的声音，对于欧洲文化遗产内容值得信赖的、全面的资源。

Europeana Data：

FEDSTATS：一个美国统计资料的综合资源以及更多

FIMI repository for frequent itemset mining：工具和数据集。

Financial Data Finder at OSU：大型财务数据集目录。

GDELT:关于事件、位置和音调的全球数据，被英国卫报形容为“生命、宇宙和一切的大数据历史”。

GEO (GEO Gene Expression Omnibus)：一个支持MIAME兼容数据提交的基因表达/分子丰度信息库，一个精心策划的网上资源，用于基因表达数据的浏览，查询和检索。

GeoDa Center：地理和空间数据。

Google ngrams datasets：来自数Google扫描的百万书籍文本。

Grain Market Research：财务数据，包括股票、期货等。

Hilary Mason research-quality Big Data sets收集许多文本和图片数据集。

HitCompanies Datasets：HitCompanies随机取样的1万个英国公司全面的数据，采用人工智能/机器学习进行自动更新。

ICWSM-2009 dataset：包含2008年8月1日到10月1日之间的4400万个博文。

Infochimps：一个数据开放的目录和集合，允许分享、出售和下载关于任何内容的数据。

Investor Links：包含财物数据。

KDD Cup center：数据、工作表和结果。

Kevin Chai list of datasets：文本、SNA和其他领域。

KONECT：科布伦茨网络收集，拥有大量各种类型的网络数据集，以便在网络挖掘领域进行研究。

Linking Open Data 工程，免费向所有人提供数据。

MIT Cancer Genomics gene expression datasets and publications：来自麻省理工Whitehead Center用于基因组研究。

ML Data：欧盟Pascal2网络数据储存库。

NASDAQ Data Store：提供市场数据。

National Government Statistical Web Sites：来自大约70个网站的数据、报告、统计年鉴、新闻和其他，包括非洲、欧洲、亚洲和拉丁美洲的国家。

National Space Science Data Center (NSSDC)：美国国家航空航天局的数据集，包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

Open Data Census：评估世界各地的开放数据的状态。

OpenData from Socrata：允许访问超过10000个数据集，包括商业、教育、政府和娱乐。

Open Source Sports：大量运动数据库，包括棒球、足球、篮球和曲棍球。

Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools：基因组有关的出版物数据库。

Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

qunb：一个用来发现和可视化的数据资料的平台。

Robert Schiller data：住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据。

SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据。

Jerry Smith dataset collection：财经、政府、机器学习、科学和其他数据。

SourceForge.net Research Data：包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

StatLib,卡内基梅隆大学数据档案。

STATOO Datasets part 1和 STATOO Datasets part 2

Time Series Data Library

Visual Analytics Benchmark Repository.

UCI KDD Database Repository ：适用于机器学习和知识发现研究的大数据集。

UCI Machine Learning Repository.

UCR Time Series Data Archive：提供数据集、论文、链接和代码。

United States Census Bureau.

Wikiposit：一个（虚拟的）融合了来自许多不同网站的数据（大多数是金融的），允许用户合并来自不同来源的数据。

Wolfram Alpha disease and patient level dat.

Yahoo Sandbox datasets：语言、图表、评级、广告与营销、竞赛。

Yelp Academic Dataset：30家大学的250个最接近商业的所有数据和评论，为学生和学者来探讨和研究

原文发布时间为：2014-06-19

时间： 2024-08-31 17:15:25

70多个网站让你免费获取大数据存储库的相关文章

大数据：70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本.但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果.以下是70多家可以获得免费大数据存储库的网站. Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本.可以得到多种语言的数据.内容连同图片可以下载. Common crawl 建立并维护一个所有人都可以访问的开放的网络.这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它. Common cr

为了获取“大数据”，战略投资爱站网

摘要: 最开始知道蔡文胜投资爱站网的消息,是看到老郭在微信朋友圈发布的一条信息,后面看管鹏也有发,应该消息属实. 如图:5月30日老郭微信第一时间爆料,蔡文胜投资爱站的消息消最开始知道蔡文胜投资爱站网的消息,是看到老郭在微信朋友圈发布的一条信息,后面看管鹏也有发,应该消息属实. 如图:5月30日老郭微信第一时间爆料,蔡文胜投资爱站的消息消息经老郭和管鹏第一时间爆料后,引起了很多圈内朋友的讨论,因为之前蔡文胜曾公开声称"今后不投资互联网项目,只投资移动互联网"但这次又破例投资了爱站

Apache Beam欲通过uber api获取大数据

文章讲的是Apache Beam欲通过uber api获取大数据,现在,有用的Apache大数据项目似乎每日更新.相比于每次都重新学习的方式,如果可以通过一个统一的API如何呢? 长期开玩笑说Hadoop生态系统是那种如果你不喜欢一个为特定系统的API,等待五分钟,两个新的Apache项目将出现随之而来崭新的API可供学习. 有很多要赶着学习.更糟糕的是,它会导致很多工作迁移到不同的项目仅仅为了保持通用性."我们已经在暴风雨中实现了流媒体解决方案!现在我们已经快速地重做了!我们目前正在重写pac

电子商务网站B2C的6个大数据

文章描述:电子商务网站B2C的6个大数据. 本来是要写博客的,结果临时被事情打断,然后就没兴致继续写下去了,于是改用微博刷屏.转帖于此 1.上次说了<推荐零售网商关注的4个数据>,不少人提了一些蛮有意思的问题,也有咨询公司出了一些很搞笑的数据.其实这些东西很值得深挖下去.有笔账算下来是很有意思的 - 2.B2C们6个大数据(大致的均值):1.营销成本.去年0.8元,现在1.2元,明年至少2元:2.订单转化率.目前平均0.8%,因为广告力度更大更盲目明年可能会下降一点; 3.支付成功率.网银超低

腾讯云平台陈磊：对硬件开放免费提供大数据服务

腾讯云平台总经理陈磊第六届中国云计算大会日前在北京国家会议中心开幕,腾讯云平台总经理陈磊在大会上发表了"云端连接未来"的主题演讲,他指出,互联网已经从移动时代发展到连接时代,的方式和对象都在发生新的变革,这一变化带来商业模式的改变的同时,也给整个行业带来非常多的机会.陈磊认为,连接的未来在云端.为了帮助传统企业更好应对新的商业时代,腾讯云推出了微信云,通过支持和帮助微信公众帐号产业链的服务商,为传统企业提供服务,未来,腾讯云还会跟这些服务商一起去竞标,共同努力帮助传统企业推动互联

CCAI | 如何能既便宜又快速地获取大数据？这位微软研究员设计了两个模型，帮你省钱省时间

大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了<众包中的统计推断与激励机制>主题报告,从"为什么众包"."众包的挑战"."统计推断"."激励机制"着手,结合多个生动形象的案例,具体总结了微软雷德蒙研究院过去几年在众包研究与工程上的进展. 周登勇博士表示,在可以预见的将来,机器智能完全代替人的智能几乎没有任何可能,我们应该是让人与机器各施所长互相补充.数据标注是一个比较简单的人机系

百度开放“大脑” 传统企业可免费拥抱大数据

对于一些信息化程度不高的传统企业来说,拥抱.挖掘和免费使用大数据,不再是一道难以逾越的鸿沟.在昨日举行的百度第四届技术开放日上,百度宣布正式发布大数据引擎,将包括开放云.数据工厂和百度大脑三大组件在内的核心大数据能力开放,这也是全球首个开放式大数据引擎. 据了解,百度大数据引擎由开放云.数据工厂和百度大脑构成,将大数据存储.分析和智能化处理等能力通过平台化.接口化的方式对外开放.传统企业可以在线使用百度的大数据架构,通过企业自身积累的大数据,或同时融合百度大数据进行挖掘处理,改造和优化传统行业的

ISV如何获取大数据应用价值

伴随社交网络.移动互联等新兴信息时代的步进,企业市场正遭遇着大数据的侵袭,大数据的出现可以说颠覆了信息时代技术潮流,大数据的到来将引领起新一番的信息化技术变革. 在面对大数据时代的到来,呈现在当前的是信息数据的爆发式增长,与此同时,也催生了对于传统大数据技术的种种挑战,目前来看,基于大数据产生的过程中,行业用户的数据应用成为了主体,特别是对于诸如银行.证券.保险等此类对数据信息趋于敏感的行业,大数据在于行业应用上的紧密关联,由此形成了对于数据类型结构差异化的产生, 据权威研究报告显示,中国大数据

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps 概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累. 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集.提炼始终是一个困扰.而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据. 相信很多做过网站管理的人对网站访问日志(Access Log)应该不会陌生,