本文讲的是全球首款云计算平台来了,云计算,这个时髦的IT术语和生命科学有啥关系?实验技术的不断创新,使研究规模和可获得的数据量急剧扩增,当普通实验室计算能力已不足以应付日益庞大的数据分析时,云计算提供了解决之道。首个新一代测序云计算的诞生,不单将有助于解决数据瓶颈问题,更为未来的实验室数据分析指出新的方向。
自从人类基因组计划以来,测序技术的进步可谓日新月异。过去倾全世界之力也需要耗时近10年才能完成的人类基因组测序,如今的新一代测序只需数日即可完成。但是,新一代测序(NGS)系统的最大挑战之一是需要高性能的计算设施,以支持(庞大的)数据分析和储存。设想,以100-200bp的序列读长,要拼接出整个基因组,那需要多么庞大的数据分析和存储!以华大基因为例,仅仅是数据分析就号称有3000人的团队。普通实验室哪里能有这个计算能力!怎么办?
云计算解决之道
地位,为将新一代测序技术普及到普通规模实验室,又推出小型新一代测序Miseq。深明数据分析是新一代测序技术之瓶颈,清楚地认识到普通实验室缺少高性能计算设施支持庞大的数据分析和储存,Illumina最新推出了为生物学家打造的新一代测序云计算平台——BaseSpace。有了BaseSpace,实验室就能够省去维护IT设备带来的费用,从而更专注于研究。
一键式的分析工具,简化的数据分析,可快速轻松地查看结果,而无需专门的生物信息学资源。在MiSeq 控制软件(MCS)中,只需在测序运行开始时选择使用BaseSpace来储存和分析。MiSeq仪器将数据从仪器无缝推送到云端——BaseSpace,进行自动化的分析和储存,立即与合作者随时随地共享数据,并储存无限的数据。同时可选择保留数据,进行本地托管和分析。行业标准的加密可提供安全保障。
在设计中充分考虑到生物学家的需求,BaseSpace一键式生物信息学应用程序可谓简单易用,能从原始数据中产生生物学相关且可操作的结果。BaseSpace输出文件是行业标准的,采用开放的格式,如bam(定位和比对)、vcf(变异体检出)、fastq(原始读取)和text格式。有了这些文件格式,您能将BaseSpace数据轻松导入您喜爱的科学软件工具进行进一步分析。
简化的数据分析
从事新一代测序的实验室通常需要一位训练有素的生物信息学家来开展数据分析。BaseSpace利用云端软件应用程序,可帮助实现自动化的生物信息学分析。BaseSpace目前拥有6个独立的数据分析应用程序:重测序、扩增子测序、16S宏基因组、de novo装配(由Velvet支持)、小分子RNA和文库QC。利用Illumina Experiment Manager(Illumina实验管理器),在样品表设置时选择好所需的分析,运行开始后数据就直接传输到BaseSpace。一旦测序运行完成,BaseSpace自动开始运行指定的分析,无需用户干预。分析在几小时内完成,并自动生成报告。此外,Illumina还将会继续添加内部开发以及生物信息学社区开发的应用程序。这将进一步扩展简单、定制数据分析的选择。
全球规模的数据合作
有了云端的原始和汇总数据,BaseSpace用户可立即与走廊那头或遍布全球的合作者共享数据。与其他BaseSpace用户共享数据相当简单明了。目前有两种选择:通过链接共享(Sharing by Link)和通过名字共享(Sharing by Name)。通过链接共享允许数据拥有者创建一个独特的链接,发送给合作者。数据拥有者可删除此链接,并了解谁点击了链接和查看了数据。通过名字共享将是一个更容易设置的方法,数据拥有者只需管理一份用户电子邮件列表,即可控制谁有权访问数据。
增强的安全性
在决定是否将基因组数据移到云端分析和储存时,安全性至关重要。通过物理、电子和行政措施,所有的数据可得到有效保护。上传数据通过AES256标准加密,并受到SSL保护。BaseSpace中的数据托管在Amazon Web Services(AWS)中,它符合各种行业认可的安全性标准1。Amazon全面且经过行业测试的平台安全性方法,确保BaseSpace可满足、甚至超越了大部分机构设备的安全性要求。
不断超越,才能生生不息。Illumina创新的BaseSpace云计算平台,不单能与MiSeq系统及其他的Illumina测序平台直接整合,是数据分析、储存和共享的理想云方案,更重要的意义在于,为将来的实验室数据分析提示了一种新的方法,“云存储”“云分析”“云计算”服务将在生命科学领域日益普及,或许不远的将来,还会有“云实验”!
原文发布时间为:2012-03-21
本文作者: 刘亚琼