找不到数据?这20个公开的大数据资源你应该知道

我总是在证明这样一个论点,即数据无处不在——并且很多都是免费的。在开始大数据分析之前,公司不一定要建立自己的大规模数据仓库。企业和政府将大量信息投入到公共领域的举措,使得每个人都能够获得海量数据。

迄今为止,从大蓝筹企业到极小型创业公司,都可以使用比以往更多的数据。我的很多客户都在向我寻求他们在向大数据方面努力时可以使用的顶尖数据源,下面描述的就是如今可以获得的,一些好用同时免费的大数据来源。

  1. Data.gov

美国政府去年承诺使所有政府数据都能在网上免费获得。这个网站是第一阶段,作为一个门户网站,囊括了从气候到犯罪的一切惊人的信息。

  1. 美国人口普查局

一个关于美国公民生活的丰富信息,包括人口数据,地域数据以及教育。

  1. 欧洲联盟开放数据门户

如上所述,但它是基于欧洲联盟机构的数据。

  1. Data.gov.uk

来自英国政府的数据,包括《英国国家书目》——自1950以来所有的英国书籍以及出版物的元数据。

  1. 中情局世界概况

267个国家历史、人口、经济、政府、基础设施以及军事信息。

  1. Healthdata.gov

125年来美国的医疗保健数据,包括索赔型医保数据,流行病学和人口统计。

  1. NHS 健康和社会保健信息中心

来自英国国民健康服务的健康状况数据集。

  1. Amazon网络服务公共数据集

巨型公共数据源,包括1000个基因组工程,试图建立最全面的人类遗传信息数据库和美国宇航局的卫星图像数据库。

  1. Facebook Graph

虽然Facebook用户个人资料中的很多信息是私有的,但很多也不是——Facebook提供Graph API作为查询大量信息的一种方式,它的用户很乐意与世界分享(或者说是不能隐藏,因为他们还没有制定如何设置隐私功能)。

  1. Gapminder

世界卫生组织和世界银行的数据集合,包括世界各地的经济、医疗以及社会统计数据。

  1. Google Trends

自2004年以来,对所有关键字的搜索量(作为总搜索的比例)的数据统计。

  1. Google财经

40年的股票市场数据,并实时更新。

  1. Google Books Ngrams

搜索和分析数以百万计的数字图书全文,作为Google图书项目的一部分。

  1. 国家气候数据中心

从美国国家气候数据中心收集的环境、气象以及气候数据集。全球最大的天气数据存档。

  1. DBPedia

维基百科包含数以百万计的数据,生活中每个事物的结构化和非结构化信息。DBpedia的是一个用来分类的大型工程,并创建了一个公共的,免费发布的并允许任何人来分析这些数据的数据库。

  1. Topsy

免费而全面的社交媒体数据是很难得到的——毕竟这些数据是为那些大玩家(Facebook,Twitter等)产生利润的,所以他们不想轻易送人。然而Topsy提供了一个可搜索回溯至2006年公共微博的数据库,和现在一些用来分析会话的工具。

  1. Likebutton

在全球范围内,从你自己的网络中挖掘Facebook的公共数据,来了解在某个时刻人们“喜欢”什么。

  1. New York Times《纽约时报》

可搜索的新闻文章的索引档案,可以追溯到1851年。

  1. Freebase

一个关于人,地点和事物的结构化数据的社区数据库,记录数超过45万个。

  1. 百万歌曲数据集

超过一百万首歌曲和音乐作品的元数据。部分属于亚马逊网络服务。

本文转自d1net(转载)

时间: 2024-10-30 15:53:52

找不到数据?这20个公开的大数据资源你应该知道的相关文章

云栖大会上海峰会20日将发布大数据平台

本文讲的是云栖大会上海峰会20日将发布大数据平台 本月20日,2016云栖大会上海峰会将在上海科技馆召开.云栖大会是目前全球最大规模的云计算大数据行业巡回峰会.作为主办方,阿里云将在此次大会上发布全新的大数据平台,并进一步扩展其混合云生态. 大会主题为"HELLO,DT WORDLD",意指通过大数据技术为企业和公众敲开DT世界的大门.阿里云总裁胡晓明认为,人类正从IT时代走向DT时代.在DT时代,计算成为一种生产能力,而数据会成为最大的生产资料."能否获取这种新能源,大数据

那些年Google公开的大数据方面论文

Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始人兼首席数据科学家.在其个人博客上总结了Google近几年大数据领域的论文,并发表了自己的见解. 以下为译文: 主流的大数据基本都是MapReduce的衍生,然而把目光聚焦到实时上就会发现:MapReuce的局限性已经渐渐浮现.下面将讨论一下自大数据开始,Google公布的大数据相关技术,以及这些技术的现状. MapReuce.Google File System以及Bigtable:大数据算法的起源 按时间算第一

那些年Google公开的大数据领域论文

Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始人兼首席数据科学家.在其个人博客上总结了Google近几年大数据领域的论文,并发表了自己的见解. 以下为译文: 主流的大数据基本都是MapReduce的衍生,然而把目光聚焦到实时上就会发现:MapReuce的局限性已经渐渐浮现.下面将讨论一下自大数据开始,Google公布的大数据相关技术,以及这些技术的现状. MapReuce.Google File System以及Bigtable:大数据算法的起源 按时间算第一

大数据何去何从:人民日报四问大数据

问题一:大数据属于谁? 杜小勇:获取.记录数据需要耗费资源,因此,数据也就具有了资产的属性.在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上.没有软件的使用,就没有数据的价值.当时有关数据的归属问题并不那么突出.在大数据时代,数据可以作为一种独立的存在,其"资产"性价值越来越引起人们的重视. 数据是物理世界客观事物性质.状态的反映,这是客观存在.你去收集了,有特定的表达形式,自然特定格式的数据就是你的.个人.企业.政府.组织都可以合法地去收集数据.如果违

2020中国将成全球数据中心 企业巨头率先布局大数据金矿

大数据战略正加速落地,在5月25日举行的2016中国大数据产业峰会暨中国电子商务创新发展峰会上传出令人振奋的消息--据预测,未来5年中国大数据产业规模年均增长率将超过50%,2020年中国将成为全球数据中心.而先知先觉的企业巨头们已开始在此布局,大数据产业俨然已成一座成色十足的"金矿". 大数据产业 "十三五"规划将出 在5月25日举行的中国大数据产业峰会暨中国电子商务创新发展峰会上,国家发展和改革委员会副主任林念修在主题演讲中表示,以大数据为代表的信息经济对促进传

“大数据”误区:有的公司不需要大数据

2012年"大数据"的发展如火如荼,然而本文的作者,数据分析公司SiSense副总裁Bruno Aziza却认为并不是每个人都需要大数据. "大数据"无处不在.从社交媒体初创公司到纽约的中央公园,每个公司似乎都在部署大数据分析. 著名数据分析公司Gartner的数据似乎也在证明这一点:最近的一份报告显示,大数据将带动2012年全球280亿美元的IT支出,到2016年这个数字将超过2300亿美元.2300亿美元几乎是葡萄牙全年的http://www.aliyun.c

运营商发力大数据,实现流量经营向大数据运营的创新转型

未来是一个数据驱动的世界,一切都将被数字化,数字化创新转型将成为各行业应对时代变化和市场竞争的必由之路.Gartner 数据显示,全球数据量每两年翻一倍,每年新产生和复制的数据量将从2013年的4.4ZB增长到2020年的44ZB.IDC报告预测,到2017年,数字化业务上的能力欠缺将使25%的企业失去市场位置,20%的行业领先企业将被2000年以后成立的企业取代. 电信运营商具有发展大数据的先天性优势,电信与媒体市场调研公司Informa Telecoms & Media 在2013年的调查结

读懂这篇文章就懂大数据,3000字概括《大数据时代》

有言在先 近期有些起伏,这种情况最适合回归书本,寻找一些你内心认同的东西.这几天花了点时间重温<大数据时代>,整理.总结出了精华的东西,分享给大家. 大数据引起了变革 当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见. 1.震人心魄的数据 2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15分钟就可以完成同样的工作.在金融领域,美国股市每天的成交量高达7

大数据陷阱:谁有权享有大数据,谁有权分析大数据

既要保持数据的自由流动性,又要维护每个主体在数据上的权益,这是个空前的法律难题.而创制和维护这样的数据利用秩序却是大数据应用的前提,是大数据战略得以实施的根本保证 中国信息通信研究院在第十六届中国互联网大会上发布的<中国数字经济发展白皮书(2017)>指出,2016年中国数字经济总量达到22.6万亿元,同比名义增长接近19%,占GDP的比重超过30%,同比提升2.8个百分点.数字经济已成为近年来带动经济增长的重要动力. 人类已经进入到了一个无商不利用数据,无领域(包括政府)不利用数据的时代.无