为了提供一种云数据服务,Amazon正在对外征集公共数据集。该服务可以提供一种简便方法,“分享、获得和使用公共数据”。
该服务名为AWS 公共数据集,可以让用户在Amazon EC2环境下使用公共数据。所选择的数据集作为AmazonEBS快照,免费存放在AWS上。
现有的数据集访问起来都很昂贵、费劲。比如Gutenberg项目,提供电子书下载,但是你要等上48小时才能完成下载(假定网速1M,文件14.5G)。如果你想得到mp3,下载91.5G需要等上9天。
但是好像项目并未列入AWS计划。我们计算了一下下载/上传80G大小的用户生成的虚拟图书馆(Virtual Conformer Library)所需的时间。
我们用加州的小区网络电缆做实验,下载需要22小时36分,上传需要3天零36分。如果服务器在纽约,我们在加州访问,下载需要3天42分,上传需要7天14小时。显然效率低下。
人们一直在寻找访问公共数据的更好办法,AWS项目也许不错。以前只有大公司花费巨资才可以实现云计算。
列入Amazon清单的数据集包括:破解人类基因数据、PubChem和虚拟图书馆(Virtual Conformer Library),美国人口普查数据,各种劳动力统计数据,以及各种经济和交通运输数据库。
AWS在以后将加入更多数据库,需要你的贡献。
如果你有公共数据集并且有传播权,可以提交到AWS公共数据集网站。
这太牛了!
时间: 2024-10-14 19:01:56