Science:生物学中的云计算和大数据

诺奖得主、生物化学家 弗雷德里克·桑格(Fredrick Sanger )与苹果公司创始人 史蒂夫·乔布斯(Steven Jobs)有什么联系?

1977 年 2 月,Fredrick Sanger 与他的同事发表了第一个生物体的完整基因组序列,即噬菌体 phiX174 的 5375 个核苷酸。从那之后,人们就清楚地意识到,随着科学家测出更多复杂物种,全基因组的研究将会变得繁琐冗长。幸好,发展中的基因组学很快就有了解决方案。仅 仅 4 个月之后,加州库比提诺一家新成立的小公司就开始为电子发烧友们出售 Apple II。科学家也迅速发现,这套相对划算的新计算系统是存储和分析基因数据的理想系统。

如今,分子生物学根本离不开计算机的帮助。当高度自动化的测序仪每天产生数百万兆字节的新数据时,研究人员仍然能够常规地搜寻巨大的在线数据库,寻找基因间的新联系。事实上,“生物信息学”这个全新的科学学科已悄然兴起,用于分类、研究不断增长的生物学新信息。

很多研究机构都建立了专门的计算中心,处理过多的数据。然而,近期生物信息学专家开始借用计算机行业的另一套策略,避免更多的花费,那就是云计算(或分布 式计算)。基于云计算的系统不同于本地化的存储和分析数据,它将强度很大的工作程序化地按需分派到成百上千的远程服务器上。早期采用云计算基因组学的科研 人员不得不自己编写软件,但现如今计算机专家和服务器公司开始设计更加人性化的界面,进一步推广这一技术。

计算无极限

对于云计算,最显见的争论就是新测序数据的绝对量。“我们机构不大,每天能产生一百万兆字节。”纽约冷泉港实验室定量生物学助理教授 Michael Schatz 说。这足以在仅仅两到三天内填满一台台式机的整个硬盘。

Schultz解释道,从全球来看, DNA 测序仪每年能产生大约150亿兆(PB)字节的数据(这一数据仍在迅速增长);而 1PB 就是 1000 个 TB。要想把 150 亿兆字节的数据刻录到大容量 DVD 中,刻出来的光盘摞起来能达到2.5英里高,而这仅仅是原始数据。显微图片等表型信息的实验数据甚至会成倍增加存储的问题。

幸运的是,有些公司资金雄厚、计算经验丰富,已经能够解决这一规模的数据问题。例如,谷歌公司会为用户收集和处理几百亿兆字节的日程信息。“他们一天处理的数据超出了全世界一年产生的(序列)数据量。” Schatz 说。

为了达到这一要求,谷歌利用云计算技术,将工作分派到世界各地的成百上千台服务器“云”中。研究人员可以通过诸如亚马逊公司EC2系统之类的分布式计算系统,取得类似廉价、便捷的服务,任何人都可以租用类似的大型服务器“云”。

然而,在匆忙选择云计算之前,研究者应该先评估他们的需求和本地资源。有的科学家不需要与远方合作者共享数据的话,就可以采用自己机构的计算中心,服务比 远程云系统更加快捷低廉。 Schatz 建议大家要跟着经验走:“如果你的数据有几亿兆之多,又要与合作者共享,那么还是云计算平台最合适。”

有的研究机构没有专门的计算中心,因此也想使用云计算。“传统上来讲,你会去建设一个大数据中心,买大量的设备。但是这不仅造价高昂,而且大半时间,机器 都在空转。因此云计算的好处在于,你只是支付了使用时的服务费,而剩下的时间你就不怎么破费了。”英国 Eagle Genomics 公司首席商务官 Richard Holland 说。

另一种“云图”

除了有权使用大量的远程服务器外,云计算的一个典型服务就是提供基础软件。很多云计算产业现在依赖于免费、开源的工具,例如应用颇广的 Apache 服务器软件和 Apache 的 Hadoop 插件。前者主要负责每台服务器和网络间的基础通信,而后者则用于执行复杂的计算任务,并在成千上万台服务器间进行有效分配。

网络公司最初研发出这种架构,满足自身的需求—— Hadoop 处理着世界上所有 Facebook 的照片和 Yahoo! 的搜索。然而在 2009 年, Schatz 和他的同事开始在基因组数据中使用它。自此以后, Hadoop 成为了云计算中生物信息学的首选。“在生命科学中,一次需要分析几亿兆或几十亿兆数据已经成了事实标准。” Schatz 说。

Hadoop 的一大优点就在于操作的简便性,至少是对熟悉计算机编程的科学家来说。“只要懂点 Java 编程就足以在非常大的集群中运行大规模的分析任务,这是用 Hadoop 的一大优势。”德国萨尔布吕肯萨尔伦大学信息系统学教授 Jens Dittrich 说。 Hadoop 不用记录哪个处理器正在进行哪项任务,程序员可以像单机工作一样去写算法。而且, Hadoop 可以处理底层的复杂操作,将程序分派给上千台服务器。

总体来说,云计算特别是 Hadoop 确实存在一些缺陷。为了在云计算中分析数据,研究者首先必须将数据放进去。即使网速很快,几百万兆的数据上传也需要数个小时。由于 Hadoop 缺乏很多数据库中使用的高级索引系统,它对某些类型的分析也效率颇低。有的索引架构较好,程序就可以鉴定数据的特定片段,这对于特定的查询是很有必要的。 而有的系统没有索引,就必须去搜寻整个数据集,往往花费的时间更长。

Dittrich 和他的同事最近开始着手处理这两个问题。这个团队新研发的 Hadoop 侵入式索引系统能在数据上传到云时就创建出多个数据集的索引,通常被浪费掉的计算时间可以用来建立一套优化后续分析的有效工具。这些索引可以加速处理过 程,有的研究问题甚至可以加速上百倍。“坦白地说,这并不是最终的答案,是取决于分析任务的……但对于大部分任务来说,我们已经做得非常好了。” Dittrich 说。

即使新技术让 Hadoop 如虎添翼,这一领域的专家仍然强调它永远也不会成为通用的解决方案。 Dittrich 和 Schatz 都表明,以云计算为基础的系统擅长回答一些生物学问题,但其他领域则不然。比对测序读取、鉴定基因变异和通过RNA表达模式进行归类都是云计算解决方案的 合格目标,因为它们都需要从大数据集中搜寻个体片段的信息。另一方面,代谢途径建模则要在小数据集上进行复杂的计算,因此本地计算系统反而会更加适合。

其他人的大数据

对于不习惯自己编写计算机程序的生物学家来说, Hadoop 就不怎么有用了。有些公司已经面向这些科学家,开始提供云计算数据分析用户友好界面。

“云有各种不同的类型。”Eagle 公司的 Holland 说。从最基础的服务器租赁协议(也可称为“基础设施即服务”),到全面架构的应用服务或者“软件即服务”(software as a service, SaaS ),一应俱全。 SaaS 中,服务公司提供云基础设施、数据存储和生物信息软件。很多情况下,研究者可以将他们的测序结果直接送至公司,然后在指向-点击式网络环境中进行普通类型 的分析。现在,加州圣地亚哥的Illumina等测序公司开始提供自己的 SaaS 系统,大量新兴公司也开始探索这一新市场。

每个服务公司都有自己的方式。例如,EagleGenomics 公司将各个预建的程序连接起来,为每个用户量身定做软件。“人们通常找到我们说,‘我们需要建立一个SNP预测或变异定位的分析流程’,” Holland 说,接下来,公司会利用已经发表的算法并“将它们整合在一起,形成一个……能够回答这些问题的工作流程。”研究者然后就可以利用这一定制的流程在云服务器 上分析他们的数据。更有经验的用户也可以自己探究这些计算机代码,或者进行修改。

如果有些研究人员想要找到更便捷的云入口,那么有些公司现在就提供通用软件,解决常规的问题。“生物学家在我们服务器中可以使用很多功能,只需他们在网络 浏览器中登录并点击按钮。”加州山景城 SaaS 提供商, DNAnexus 公司的首席执行官和共同创始人Andreas Sundquist 说。

尽管 SaaS 公司经常研发出自己的专利代码和用户界面,科学家在购买云服务时仍应该咨询底层的算法。“研究人员实际上是一伙保守派,他们喜欢那些已经发表、测试同行评议过和人们广泛理解的算法,不倾向于在重要的数据上试验新的技术。” Holland 说。

幸运的是,大多数生物信息新公司都愿意去讨论他们的系统。“目前所有整合到Spiral的算法都是经过同行评议的,我们非常理解,人们想用开源。”华盛顿 州西雅图Spiral Genetics公司首席执行官Adina Mangubat说。为了便于使用,Spiral将自己的用户界面和数据处理层放在发表的算法中。其他该领域的公司随即附和,大多数 SaaS 租用方允许研究者直接接触底层的软件代码。

云覆盖

云计算仍然是个相对新颖的事物,有些领域的研究者仍然对它持怀疑态度,尤其是药物学和生物医学的科学家。他们掌握着敏感的专利数据和病人信息。“人们肯定都会觉得,相比在云环境中,本地集群更容易控制。”Mangubat说。

这个顾虑其实是没什么道理的。研究表明,近期美国发生的医学安全事件中,四分之三是由于临床医生丢失了笔记本电脑或便携式存储设备。“如果他们使用的是 云……偷一个笔记本电脑就不是大问题了,因为你根本不可能一开始就把病人的数据放在笔记本里。” Sundquist 说。

事实上,随着银行、政府和电子商务公司都已经把自己的数据导入云存储,服务器设备的安全体系已经变得非常完备。有些以医学研究市场为目标的公司也非常关注 数据安全法律。“我们的一大基本原则就是确保我们拥有临床和诊断操作中所必需的企业级安全控制及各个特性。” Sundquist 说。

就算科学家租用的是裸云基础设施,而且自己写算法,他们也会希望安全性的保障。Mangubat指出,流行的亚马逊公司EC2云租赁服务就遵守医学数据的物理安全性,因此只有研究者自己的软件是唯一的潜在弱点。

模糊的存储

另一个对云计算的共同担忧是数据归档,这也是研究人员在签署服务器租约前应该问的。如果 SaaS 公司倒闭,或者研究人员决定换成不同的系统,那么租约上应该明确给出提取数据的路径。“我们提供的服务允许将所有的东西都刻在光盘上并且把一大摞硬盘寄给 他们,你不是‘嫁给’云一辈子。”Mangubat说。

然而对于通用的存储来说,云可以提供意外事故和本地灾害的保护,因为云服务一般会在多个地点复制数据。“可能其中一个数据中心被流星击中,另一个中心又有火山爆发,但是你还是能够得到另一个数据备份。” Sundquist 解释说。

云存储也能帮助解决数字信息归档中的问题。例如,几十年前存储在标准计算机软盘上的数据往往不能读取,因为这种磁盘驱动器和操作系统已经淘汰了。在云计算 存储中,工作人员不断将数据转移到新媒介中,而版本控制系统能够保留旧版本的软件。以后,研究者应该能够恢复这些数据及用于分析的工具。

然而不是所有人都满意这样的解决方案。“只要能够覆盖就不是档案。” Dittrich 说。为了防止珍贵的序列数据被计算机程序和人为错误给毁了,他建议在另外一种媒介上存储额外的备份。“做备份的一个好办法就是使用只能写入一次的媒介,不 可删改的DVD就是很好的办法,你只能刻录一次,永远不能再覆盖。”他说。

然而随着几十亿兆的数据继续堆积,一些专家建言,基因组数据的最终存储系统可能就是 DNA 本身,完成计算机与生物之间的连接。这一观点认为,以后重新测序一个存储的生物样本可能比从数据归档中获取原始序列数据更便宜也更快。“当前, DNA 测序需要几天的时间,造价也很高昂,但展望未来……如果测序或多或少只是一瞬间的事,那就可能会成为数据存储媒介。” Schatz 说。

原始出处:

Alan Dove. Biology Watches the Cloud. Science, 14 June 2013; DOI: 10.1126/science.opms.p1300077

(责任编辑:蒙遗善)

时间: 2025-01-30 08:58:03

Science:生物学中的云计算和大数据的相关文章

转载:生物学中的云计算和大数据

1977年2月,FredrickSanger与他的同事发表了第一个生物体的完整基因组序列,即噬菌体phiX174的5375个核苷酸.从那之后,人们就清楚地意识到,随着科学家测出更多复杂物种,全基因组的研究将会变得繁琐冗长.幸好,发展中的基因组学很快就有了解决方案.仅仅4个月之后,加州库比提诺一家新成立的小公司就开始为电子发烧友们出售AppleII.科学家也迅速发现,这套相对划算的新计算系统是存储和分析基因数据的理想系统. 如今,分子生物学根本离不开计算机的帮助.当高度自动化的测序仪每天产生数百万

云计算、大数据、中云网微博群体特征图谱分析

这是中云网对新浪微博云计算.大数据.中云网微博http://www.aliyun.com/zixun/aggregation/11070.html">群体特征图谱分析. 本分析图谱: 首先,进行数据采集,搜索"云计算""大数据"获得关联度和知名度最高的50名微博账户,并寻找中云网账户相互关联的用户群落. 其次,进行社交分析,以以上群落各参与账户的社交关联度,重新排列可视化的大小,并以账户的社交距离排列账户的位置.图中微博账号所示的点越大,则说明这些账

中昇国计张学军:云计算与大数据时代的计算机终端安全

ZDNET安全频道 05月08日 综合消息: 第十五届中国信息安全论坛今日在北京召开,中昇国计研发部经理张学军带来<云计算与大数据时代的计算机终端安全>的主题演讲.现场文字整理如下: 大家上午好! 大家知道,在云计算与大数据时代背景下,因为数据更加集中,所以信息泄露会造成更大的危害. 这里简单列举一下国内外出现的各种安全威胁事件,比如2011年,中国的CSDN网站中的超过600万的用户信息泄露,填鸭社区四千万用户资料包括明文密码泄露,在去年如家七天酒店两千万条客户开放信息泄露.在上个月,携程的

一文读懂物联网、云计算与大数据的关系

ARM是微处理器行业的一家知名企业,设计了大量高性能.廉价.耗能低的RISC处理器.相关技术及软件.技术具有性能高.成本低和能耗省的特点.适用于多种领域,比如嵌入控制.消费/教育类多媒体.DSP和移动式应用等.ARM公司是专门从事基于RISC技术芯片设计开发的公司,作为知识产权供应商,本身不直接从事芯片生产,而是转让设计许可,由合作公司生产各具特色的芯片. 物联网是万物互联,基于互联网为人们提供更便捷.快速服务,物联网首先是基于互联网,把最底层设备的数据采集上来,供人们分析.处理.云服务是由于大

脑科学之物联网、云计算、大数据关系

脑科学与互联网本世纪初,随着互联网的发展,不断有新的应用和概念诞生,其中物联网,云计算和大数据得到了研究者的重点关注,并引起广泛的研究热潮. 研究者已经从不同方面对物联网,云计算,大数据进行了深入研究并取得诸多成果.但还存在一些问题等待解决,例如,物联网,云计算,大数据与互联网是怎样的关系,它们之间又是如何区分和关联的.本世纪初开始的互联网与脑科学的交叉对比研究,为分析物联网,云计算,大数据与互联网的关系奠定了基础. 如果我们观察近20年来互联网出现的新应用和新功能,可以直观的发现互联网与大脑结

快速理解云计算与大数据之间的关系

如今一家优秀的互联网公司肯定的是拥有数据运营的公司,反之,不能从数据中获取利益的互联网公司的就不是云计算应用者.互联网.云计算以及大数据,如今成了三个密不可分的词汇.更进一步,挖掘数据价值很多企业都会做,但如果不能用最低成本得到数据价值,企业同样活不下去.把数据以低廉成本变成财富的东西就是云计算.从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分.大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构. 那么,云计算是如何帮助大数据将一堆堆杂乱信息转化成经济效益的呢? 首先,

[阿里研究院]“互联网+”的动力:云计算、大数据与新分工网络

"互联网+"的深刻内涵 普适计算之父马克·韦泽说:最高深的技术是那些令人无法察觉的技术,这些技术不停地把它们自己编织进日常生活,直到你无从发现为止.而互联网正是这样的技术,它正潜移默化地渗透到我们的生活中来.所谓"互联网+"就是指,以互联网为主的一整套信息技术(包括移动互联网.云计算.大数据技术等)在经济.社会生活各部门的扩散.应用过程.互联网作为一种通用目的技术(General Purpose Technology),和100年前的电力技术,200年前的蒸汽机技术

云计算,大数据,人工智能能否拯救没落的IBM?

过去,IBM主要销售服务器.然而,该公司的未来却在于他们在云计算,大数据,安全以及人工智能方面取得的进步. 但是,未来并不会像想象中来得那么快. 本周二,蓝色巨人公布了2015年第四季度的财报,营收和利润再次双双下降,这也是公司连续第15个月业绩下滑.尽管公司每股收益要比分析师预测的要高几分,但利润却从241亿美元跌到了221亿美元.此外,公司全年的业绩下滑了近12%. 新CEO Ginni Rometty执掌大权之后,开始关注企业成长.虽然她声称"公司在更高价值转型方面已经取得巨大进展&quo

从网格计算、云计算到大数据---这是场进化论

他是IBM IT技术创新者最高荣誉IBM Fellow的获得者;他领导过IBM"网格计算"战略;他是EMC公司院士及杰出工程师评估委员会的创始人和主席;他在EMC设定技术方向上扮演着重要角色.多年来, 他一直走在IT技术变革的最前沿,他就是EMC高级副总裁及CTO Jeff•Nick.近日,Jeff•Nick先生接受了Watchstor独家专访,畅谈了对云计算.大数据等热门技术的看法. 从网格计算.云计算到大数据---这是场进化论 回顾过去十余年的IT发展历程,网格计算.云计算和大数据