世界最大人类基因数据集将免费对外开放

美国国立卫生研究院宣布千人基因组计划的全部数据将免费对外开放。

网易探索3月31日报道 spectrum.ieee.org网站报道,美国国立卫生研究院29日宣布,他们的千人基因组计划的全部数据将免费对外开放。这些数据总量达到200TB,是世界上最大的人类基因变异数据集。亚马逊旗下的云计算公司——“亚马逊网络服务”将存储这个庞大的数据库。

千人基因组计划旨在为基因变异如何影响健康以及与疾病间关系的研究奠定基础。所有数据免费对外开放意味着更多科学家可以利用这些数据进行研究,以更快的速度得出基因型与癌症、糖尿病等疾病间关系的发现。这项计划于2008年启动,立基于全世界26个国家和地区的2600多人的基因组。其中1700人的DNA排序结果将在不久后公布并进行云存储,余下900人的DNA将在2012年进行排序。

国立卫生研究院的千人基因组计划是一项规模更大的举措组成部分,用于管理科学研究产生的海量数据——数据管理本身就是一门科学。由于类似千人基因组计划这样的数据集规模庞大,很少有研究人员具备处理能力,因此也就无法使用。根据国立卫生研究院的计算,千人基因组计划的数据如果打印出来,可放满1600万个档案柜;如果使用标准DVD存储,需要3万多张DVD。

对于科学家和他们所在的研究机构来说,千人基因组计划数据进行云存储无疑是一个好消息,他们无需拥有更大带宽,数据存储和分析处理能力便可获取这些数据。亚马逊网络服务公司首席产品经理德帕克·辛格表示:“这意味着所有研究人员和实验室都可以获取完整的千人基因组计划数据,无论它们规模大小和预算多少。他们可以立即对这些数据进行分析,而无需在这方面投入资源。通常情况下,他们需要大量硬件、设施和人员才能获取这些数据。由于无需投入资源便可获得研究所需数据,科学家可以加快研究步伐。”

对于亚马逊网络服务公司来说,存储千人基因组计划的数据可能也是一个好消息。美国《纽约时报》报道称,处理如此海量数据需要极大的运算能力,亚马逊网络服务公司可以要求获得额外的资源,用于进一步处理或者分析这些数据。

白宫认为云存储千人基因组计划数据是他们的“大数据研究和发展倡议”所提出的解决方案的一个典范。美国科学和技术政策办公室29日宣布,将有2亿多美元投向6个联邦机构,用于推动大数据计算领域的研究——包括大数据分析——以及大数据在科学探索、环境和生物医学研究、教育以及国家安全领域的应用。(来源:spectrum.ieee.org网站,编译:shooter)

(责任编辑:蒙遗善)

时间: 2024-07-30 21:43:24

世界最大人类基因数据集将免费对外开放的相关文章

人类基因编辑国际峰会周琪院士谈基因编辑的未来

基因编辑技术的飞速发展, 特别是近年来CRISPR技术的广泛应用, 使得人类拥有了前所未有的改变和修饰基因组的能力. CRISPR技术来源于细菌本身对抗噬菌体的"免疫系统". 这项技术利用单链引导RNA(sgRNA)和Cas9蛋白, 可以在体内和体外简单.迅速.低成本实现基因编辑. 2012年以来, CRISPR技术已经广泛地被全球应用于各个实验室, 进行几乎所有细胞系和大多数常用实验动物的遗传物质改造. CRISPR技术及其应用成果从其发现以来连年入选Nature和Science杂志

大数据解码人类基因,精准医疗不再遥远!

很多人都思考过这样一个问题:假如生命只剩下三天,应该怎样去过? 从生命价值角度考虑,这只是一种"假设";但从生命本身来看,我们之所以这样假设,是因为人类对自己的生命充满了未知,谁都无法预测自己的生.老.病.死.而在信息技术推动下,人类基因其实可以告诉我们很多关乎生命的秘密. 从生命诞生的那天开始,每个人都有自己的基因,如果我们对这些潜在的基因数据进行分析,就能够精准的诊断出病源,比如:有人是癌症潜在患者,还有人是心.脑血管疾病易发人群--需要明确的是,知道这个结果并不重要,重要的是我们

美国禁止人类基因申请专利

北京时间6月14日消息,美国高等法院本周四一致同意,独立于人体的人类基因不允许http://www.aliyun.com/zixun/aggregation/31985.html">申请专利.一些医生.病人认为此类专利会妨碍研究.有违医疗操守. 在分子医学领域,这将是最有影响力的一个裁定,它决定谁拥有生命的基本结构单位. 美国麦利亚德基因公司( Myriad Genetics)拥有2项基因相关专利,分别为BRCA1和BRCA2,它可以用来界定女性是否存在患乳腺癌和卵巢癌风险. 法官克拉伦斯

未来机器人的世界:代替人类执行危险任务

美国宇航局也计划研制智能探测器和登陆装置前往小行星探索,可以代替人类进入一些非常危险的环境中,显然机器人将是未来一种重要的探险工具. 机器人终究将进入人类社会,参与到各种探索任务中,未来将是充斥着各种机器人的世界 2013年2月,蒙特利尔麦吉尔大学工程师在加拿大户外机器人http://www.aliyun.com/zixun/aggregation/32384.html">网络会议上演示可自主飞行的机器人,该机器人网络由加拿大自然科学暨工程委员会主办 目前,加拿大各地的机器人科学家正在参与

【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索.

当基因联网,人类会怎样

华大基因总部位于深圳市盐田区北山工业区,是一栋由旧鞋厂改造而成的8层小楼. 这座普通的8层小楼辐射出来的研究分支机构目前已遍布世界60多个国家和地区,人员规模近5000人,且多次入选世界顶级学术期刊<自然>排名中国科研机构前5名,仅次于中国科学院.中国科技大学和清华.北大. 这家公司的主业是普通人看起来很神秘的"基因".基因检测技术是自疫苗问世以来疾病预防最重要的科技突破,它通过研究基因与生物表征之间的关系,不仅可以大大降低遗传相关的疾病发生率.减少出生缺陷,还有对复杂性疾

阿里云计算宣布北京节点正式对外开放运营

4月29日,阿里云计算宣布北京节点正式对外开放运营,这是继杭州.青岛之外,阿里云在全球对外服务的第三个数据中心.阿里云方面表示,北京数据中心将更好地服务众多互联网公司和世界级企业总部. 北京云计算数据中心一期规模为1万台服务器,主要辐射以北京为中心的华北区域,满足该地区政府科研机构.金融机构以及创业公司对弹性计算能力的需求.目前,阿里云北京节点主要支持4款云产品:云服务器ECS(按量付费,包年包月);关系型数据库服务RDS(包年包月);开放存储服务OSS(按量付费);负载均衡服务SLB(按流量计

基因突变研究,释放PB级大数据的能量

15年前,人们视其为里程碑式但高不可攀的成就:10年前,这是一个有趣但是昂贵的研究工具:现在,日渐低廉的价格,迅猛提升的精确度以及正在稳定进步基础科学体系将基因组测序带入常规临床护理的实践前沿. 越来越多的机构正在开展基因组研究以鉴别出导致稀有疾病的基因突变."我们正在寻找的基因突变的发生概率正在提高",Russ Altman说道,他是斯坦福医药学院的一名生物信息教授."在一些医疗中心,百分之50的案例都是我们研究的这些病种". 越来越多的机构正在开展基因组研究以鉴

Amazon网页服务征集公共数据集

为了提供一种云数据服务,Amazon正在对外征集公共数据集.该服务可以提供一种简便方法,"分享.获得和使用公共数据". 该服务名为AWS 公共数据集,可以让用户在Amazon EC2环境下使用公共数据.所选择的数据集作为AmazonEBS快照,免费存放在AWS上. 现有的数据集访问起来都很昂贵.费劲.比如Gutenberg项目,提供电子书下载,但是你要等上48小时才能完成下载(假定网速1M,文件14.5G).如果你想得到mp3,下载91.5G需要等上9天. 但是好像项目并未列入AWS计