生命科学中的大数据

2014年6月13日,《科学》杂志刊载了一篇由美国科学促进会(AAAS)科技出版顾问Mike May撰写的一篇题为“Big Biological Impacts from Big Data”的文章。鉴于大数据作为目前的一个热点概念,本文对该文进行了编译。本文首先梳理了大数据所包含的三层含义,然后就这三层含义进行了分析和解读。基于基因组数据量越来越多的情况下,很多机构都意识到利用大数据的前景。本文列举了一些机构已开发或正在研发的、用以分析大数据的方法或工具。例如,美国BioDatomics公司开发了比传统软件分析速度快100倍的BioDT软件;加拿大多伦多的ACD/Labs公司开发的计算系统在处理大数据时能够整合各种数据格式;加利福尼亚州的IBM Almaden研究中心开发的文本挖掘工具;汤森路透NuMedii公司基于大数据的药物再利用。大数据除了以上三个含义,本文还提及大数据还应包含“复杂性”,并列举了马萨诸塞州的GNS Healthcare公司基于数据的复杂性而开发的REFS分析平台。最终,本文认为所有致力于研发大数据的努力都应该落在使大数据能够促进未来生物学和医学发展的方向上来。

大数据与生命科学

大数据是目前最热的概念之一,也是容易被曲解的概念。顾名思义,大数据意味着大量的数据,然而这只是从字面理解的含义。概括来看,大数据包括三层含义(3V):数据量大(volume of data),处理数据的速度快(velocity of processing the data),数据源多变(variability of data sources)。这是那些依赖大数据工具进行分析的信息的重要特征。

美国乔治华盛顿大学的计算生物学研究所主任Keith Crandall表示,尽管生物学家花费大量精力收集数据,实际上,现在生物学面临的瓶颈在于大数据。例如,2002年8月,对第一个人完整基因组测序工作,集中了20个研究所的专家,利用这些研究所所配置的基础设施,经历13年,投入30亿美元获得了约30亿核苷酸序列。而目前,为某个人测序仅需要1000美元,每周产生320多个基因组。随着研究人员不断开发方法,处理大数据的量、速度和可变性方面的问题,研究人员开始研发分析信息的新方法。

生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。如果研究人员能解决这一问题,这些数据将转变成潜在的财富,即问题在于如何处理这些复杂的信息。当下,相关领域期待那些能分析大数据,并将这些数据转换成更好理解基础生命科学机制和将分析成果应用到人口健康上去的工具和技术的面市。

(1)“量”的持续增加

数十年前,制药公司就开始存储数据。位于美国波士顿默克公司研究实验室(Merck Research Labs)的副董事Keith Crandall表示,默克公司在组织成千上万病患参加的临床试验方面已经进展了好些年,并具有从数百万病患的相关记录中查出所需信息的能力。目前,该公司已经拥有新一代测序技术,每个样本就能产生兆兆位的数据。面对如此大数量级的数据,即使是大型制药公司也需要帮助。例如,来自瑞士罗氏公司的Bryn Roberts表示,罗氏公司一个世纪的研发数据量相比2011~2012年在测定成千上百个癌细胞株的单个大规模试验过程中产生的数据,前者只是后者两倍多一些而已。Roberts领衔的研究团队期望能从这些存储的数据中挖掘到更有价值的信息。因而,该团队与来自加利福尼亚州的PointCross公司进行合作,以构建一个可以灵活查找罗氏公司25年间相关数据的平台。这些数据,包括那些成千上万个复合物的信息,将利用当下以获得的知识来挖掘进而开发新药物。

为了处理大量的数据,一个生物学研究人员并不需要像公司一样需要一个专门的设备来处理产生的数据。例如,Life Technologies公司(目前是Thermo Fisher Scientific公司的一部分)的Ion个人化操作基因组测序仪(Ion Personal Genome Machine)。这一新设备能够在8个小时以内测序多达2 gigabases。因而可在研究人员的实验室操作。Life Technologies公司还有更大型的仪器,4小时以内测序可高达10 gigabases。

然而,对学术领域和产业领域的生命科学研究人员,新一代测序既提供了好处也带来了问题。正如Crandall所抱怨的那样,他们并不能有效研究如此多的基因组,除非开发的计算机系统能够满足分析大量数据的需求。基于这种现状,其领衔的团队与波士顿大学的医学助理教授W. Evan Johnson进行了合作,以开发分析新一代测序(next generation sequencing,NGS)平台产生的数据,进而能够将DNA的gigabases信息转化为计算机的千兆字节。该软件将DNA样本与参考基因组比较,以便确定病原体。Crandall表示,其每个样本存储的数据达20千兆字节,而这样的样本就有成千上万个,这样每个样本分析所产生的数据就相当多。

实际上,如此大数量的数据其实对于卫生保健来说其实十分有用,因为研究人员必须在设计其试验时充分考虑人群的多样性。来自剑桥大学的转化医学教授Chas Bountra表示,毕竟从50万人获得的结论比从10个人获得的结论要可靠有说服力得多。

也有研究人员期望看到在卫生保健方面基因组数据能产生越来越多的影响。例如,遗传信息可揭示生物标志物,或某些疾病的指示物(某些分子只出现在某些类型的癌症中)。英国牛津大学维康信托基金会人类遗传学中心(Wellcome Trust Centre for Human Genetics)的基因组统计学教授Gil McVean教授表示,基因组学为人来了解疾病提供了强有力的依据。基因组学可以为人类找到与某类疾病相关的生物标志物,并基于这一标志物进行靶向治疗。例如,正因为某个分子驱动某种癌症的进展,那么可以靶向这一分子进而治疗癌症。为了应用这一理念,McVean领衔的研究团队通过李嘉诚(Li Ka Shing)捐献的3 300万美元正在剑桥大学创建Li Ka Shing健康信息和探索中心(Li Ka Shing Centre for Health Information and Discovery)。该中心将成立一个大数据研究机构。McVean总结道,该中心将将分析数据过程和基因组研究结合在一起,这样他们将能够克服在收集大数据和分析大数据方面的一些难题。

(2)分析的高速性

第二个V,也就是velocity,意指处理数据和分析数据的速度要高要快。研究人员需要高速处理以便分析大量增加的数据。

过去,分析基因相关数据存在瓶颈。马里兰州的BioDatomics董事Alan Taffel认为,传统的分析平台实际上约束了研究人员的产出(产能),因为这些平台使用起来困难且需要依赖生物信息学人员,因而相关工作执行效率低下,往往需要几天甚至几周来分析一个大型DNA。

鉴于此,BioDatomics公司开发了BioDT软件,其为分析基因组数据提供400多种工具。将这些工具整合成一个软件包,使得研究人员很容易使用,且适用任何台式电脑,且该软件还可以通过云存期。该软件相比传统系统处理信息流的速度快100倍以上,以前需要一天或一周的,现在只需要几分钟或几个小时。

有专家认为需要测序新工具。新泽西州罗格斯大学电子计算工程系的副教授Jaroslaw Zola表示,根据数据存储方式、数据转换方式和数据分析方式,新一代测序技术需要新计算策略来处理来自各种渠道的数据。这意味着需要生物研究人员必须学习使用前沿计算机技术。然而,Zola认为应该对信息技术人员施加压力,促使他们开发出让领域专家很容易掌握的方法,在保证效率的前提下,隐藏掉算法、软件和硬件体系结构的复杂性。目前,Zola领衔的团队正致力于此,研发新型算法。

(3)多变性

其一,生物学实验室往往有多种设备,这些设备产生的数据是以某种文档形式存在。所以,加拿大多伦多的ACD/Labs公司开发的计算系统在处理大数据时能够整合各种数据格式。ACD/Labs的全球战略主管(director of global strategy)表示,该系统能够支持各种设备产生的150多种文档格式,这就有利于把多种数据汇集到同一个环境中,例如汇聚到其开发的Spectrus数据库中。该数据库可以通过客户端或网页访问。

生物学大数据还体现新型可变性, 。例如,德国Definiens的研究人员分析的组织表型组学(tissue phenomics),也就是一个组织或器官样本构造相关的信息,包括细胞大小、形状,吸收的染色剂,细胞相互联系的物质等。这些数据可以在多个研究中应用,例如追踪细胞在发育过程中的特征变化的研究,测定环境因素对机体的影响,或测量药物对某些器官/组织的细胞的影响等。

结构化数据,例如数据表格,并不能揭示所有信息,比方药物处理过程或生物学过程。实际上,生活着的有机体是以一种非结构化的形式存在,有成千上万种方式去描述生物过程。默克的Johnson认为有点像期刊文本文档,很难从文献中挖掘数据。

加利福尼亚州的IBM Almaden研究中心(IBM’s Almaden Research Center)的分析专家和研究人员Ying Chen领衔的团队数年来都致力于开发文本挖掘工具,目前他们正在使用的是“加速药物发现的解决方案”(accelerated drug

discovery solution)。这一平台集合了专利、科学文献、基础化学和生物学知识(如化学物质和分子之间相互作用的机制等),有1 600多万中化合物结构,近乎7 000种疾病的相关信息。利用这一系统,研究人员从中能够寻找可能对治疗某种疾病有用的化合物。

其他一些公司致力于挖掘现有资源,以发现疾病的生物学机制,基于此来研究治疗疾病的方法。汤森路透位于硅谷的NuMedii公司,致力于寻找现有药物的新用途,又称之为药物再利用(drug repurposing)。NuMedii的首席科学家Craig Webb表示,使用基因组数据库,整合各种知识来源和生物信息学方法,快速发现药物的新用途。之后,该公司根据该药物的原有用途中的安全性来设计临床试验,这样研发药物的速度快而且成本低。Webb描述了该公司的一个项目:研究人员从2 500多种卵巢癌样本中搜集基因表达数据,再结合数种计算机算法来预测现有药物是否具有治疗卵巢癌或治疗某种分子亚型卵巢癌的潜力。

(4)复杂性

诺华公司的生物医学研究所(Novartis Institutes for BioMedical Research,NIBR)的信息系统的执行主任Stephen Cleaver在三V的基础上还加了个复杂性(complexity)。他认为制药公司的科研人员通过某些病患个体,到某些病患群再到整合所掌握的各种数据分析数据,这一过程很复杂。在卫生保健领域,大数据分析的复杂性进一步增加,因为要联合各种类型的信息,例如基因组数据、蛋白组数据、细胞信号传导、临床研究,甚至需要结合环境科学的研究数据。

联合这些数据获得的结果可能将产生全新治疗疾病的方法。马萨诸塞州的GNS Healthcare创始人之一Iya Khalil表示,促进人类对疾病机制的理解,取决于如何体现这些数据的价值,如何从这些数据获得启示。Khalil领衔的研究团队联合机器学习(machine learning)、数学运算、计算机算法和超级计算机来探索疾病背后隐藏着的种种机制,并跟踪病患可能对哪些治疗有特殊响应。而GNS Healthcare所依赖的分析平台称为REFS,其具有被逆转(reverse)和模拟(simulation)的功能。也就是说,该软件可以使某些疾病的一些过程逆转(reverse),从而逆向构建该过程中可能存在的分子网络;基于这一网络信息,模拟一些可以作用于这些通道的化合物,从而了解相关过程的发展方向。除了卫生保健,REFS还可以应用到基础生物学。例如Khalil领衔的研究团队使用这一技术制作了一个细胞复制循环分子模型。

对于Khalil和其他研究人员而言,所有关键在于利用大数据推动科学向前发展。NIBR Cleaver认为使用先进数据挖掘方法非常前沿,但是必须对新一代科学假设有建设性,也就是说利用今天的大数据能改变明天的生物学和医学。

原文发布时间为:2014-06-29

时间: 2024-08-25 16:19:33

生命科学中的大数据的相关文章

生活中的大数据

IDC中国在10月份刚刚发布了<中国大数据技术与服务市场2012-2016年预测与分析>报告,其中的数据显示,中国大数据技术和服务市场未来5年的复合增长率将达51.4%.报告中指出,淘宝.腾讯,以及百度等互联网巨头是率先使用大数据技术的用户,同时电信和银行领域也开始对大数据技术和服务产生浓厚的兴趣. Gartner也预测,到2015年,大数据将为全球带来440万个IT岗位,其中96万个IT岗位会在亚太地区.每个大数据相关的岗位将催生三个非IT的就业机会,从而使亚太地区的就业机会总计达到40万个

科学理性拨开大数据的神秘外衣

科学理性拨开大数据的神秘外衣 --关于大数据的几个重要观点 大数据产业链基本架构(资料来源:上海科学技术情报研究所整理) 大数据概念的升温,引来了很多争议.有人称之为"新瓶装旧酒",也有人认为大数据的机遇被过于夸大.其实,这些都与没有真正理解大数据的本质有关.任何事物的发展都有其客观规律,大数据并非是"石头里蹦出来的孙悟空",它也有自己的"亲生父母"--计算机科学和数据科学.正是由于两者的融合,以及生命科学.地理科学甚至社会科学等各领域数据化程度

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说

4项客户生命周期下的大数据应用

2013年,在亿玛智慧峰会暨第五届整合营销高峰论坛上,京东商城高级副总裁徐雷曾指出,企业最重要的就是通过客户来驱动销售与利润,为获得与维持高质量的客户.提高客户的购物频率与篮子.提高客户生命价值.驱动更高的销售.行程品牌忠诚度提供有效的运营.从而进行口碑传递五方面形成闭环. 在会上,徐雷表示,对比新老客户购物轨迹差异可以看到新客户(年龄小于13个月)购买金额在400元左右变化,变化幅度也相对比较明显,流失率较高.而相反,老客户(年龄为12-24月)购买金额在600元左右,变化相对稳定,流失率较低

透析国家安全视野中的大数据发展问题

近年来,我国所面临的外部安全形势日益严峻.以习近平同志为总书记的党中央在治国理政的实践中高度关注国家安全问题,成立了中央国家安全委员会并由党的总书记亲自担任主席,确定了每年4月15日为全民国家安全教育日,亲切接见了全国国家安全机关总结表彰大会代表,组织编写了<总体国家安全观干部读本>,体现了新一届中央领导集体对国家安全的高度重视,使得以爱国主义为核心的民族精神充分彰显,让广大人民群众在精神上为之振奋.习近平总书记关于"必须坚持总体国家安全观""国家安全是头等大事&

公益研究中的大数据应用

在最初的的几篇文章中我们向大家简单介绍了基于数据分析而作出的决策可以带来巨大的经济效益.那么在公益研究中,大数据又是如何体现其价值的呢? 在美国,近两百万形形色色的非营利组织已经构成了与政府,商业并行的第三部门.为了保证组织公信力,强化公众监督,美国法律规定具有免税资格的非营利组织需向社会公开其990税表.这一政策使一些致力于发展非营利部门的研究机构,如Urban Institute,Foundation Center和GuideStar,得以收集了大量非营利组织财政及运营信息并建立起了相对完善

探讨人脑中的大数据,操作系统和应用软件

互联网虚拟大脑结构图,作为<互联网进化论>最核心的一张图,预示互联网未来的最终完整结构.但在审视这张图的过程中,是否也可以启发我们,它也可以作为人类大脑的层次结构图,即人脑中也可以划分为 基础硬件层,操作系统层,应用软件层和大数据层. 在过去几十亿年的生物进化中,生物的大脑也在递延式的进化,譬如人类的大脑中就包含了类鱼的大脑,类两栖动物的大脑,类哺乳动物的大脑. 它们一层包含一层,在最外部,大脑皮层的急剧增大成为人脑的标志. 在互联网诞生之前,神经学科学家大概不会想到,人脑中也会包含和互联网一

中美“大数据云图”结构与价值比较

进入2014年,大数据正从红遍媒体的概念炒作逐渐落地为生财的产业.如雨后春笋冒出的大数据服务商,在中国市场上展开了激烈角逐.从"中国大数据服务商综合服务水平TOP100排行榜"(以下简称榜单)中,已经可以隐约看出中国"大数据云图"的雏形. 中美"大数据云图"结构比较 相比美国同类榜单,高居首位的10Gen仅列第43,而大数据股明星Tableau仅列第45,而Marketo干脆没上榜.这让我们注意到榜单标的服务范围是中国,而非美国. 我去年到美国与

评谈新经济:新经济动能转换中的“大数据要素”

[导语]2016年的两会,总理所做的政府工作报告中有许多新提法.新思路引起了人们的关注.其中,有关新经济被描述为"随着以云计算.大数据.物联网等为代表的新技术被广泛接收和应用,诞生的新产业.新消费.新组织形态,以及随之而来的创业创新浪潮.产业转型升级.就业结构改善.经济提质增效." 新经济实现的五大重点:DT形态的信息基础设施.三合一的分享型经济参与模式.开放多元的协同治理.C2B与智能制造结合的供给侧革命.互联网+之下的新型服务市场进步. 大数据是以云网端为基础核心设施.平台分享为核