CMU副教授马坚:精准基因组数据和智能医疗最新进展

个人简介:马坚,现任美国卡内基梅隆大学(CMU)计算机科学学院副教授。本科毕业于复旦大学计算机系,先后在美国宾夕法尼亚州立大学计算机科学与工程系师从计算生物学先驱 Webb Miller 从事博士研究,在加州大学圣克鲁斯分校的美国科学院院士 David Haussler 实验室进行博士后研究。2009年至2015年在伊利诺伊大学香槟分校任助理教授和副教授(并获终身教授),于2016年1月加入卡内基梅隆大学计算机科学学院,是 CMU 计算机学院计算生物系和机器学习系的 Faculty。他的实验室主要从事针对基因组结构和功能的机器学习算法开发并应用于理解疾病的分子机理。他的实验室长期得到美国国家科学基金会(NSF)和美国国家卫生署(NIH)的支持。他曾获美国国家科学基金会(NSF)CAREER 奖,Genome Technology 杂志评选的未来 PI 称号,入选伊利诺伊大学高等研究中心 Fellow 和 美国国家超级计算应用中心 Fellow。他也是中国声谷人工智能专家委员会成员。网页:http://www.cs.cmu.edu/~jianma/

马坚:谢谢大家!感谢新智元邀请。我讲的内容跟之前演讲的康奈尔大学医学院的王飞教授提到的问题大方向非常一致,但是我想分享一下我自己的实验室最近的一些工作,围绕着怎么用基因组数据在智能医疗和智能健康发展中起到一些作用。

首先,我们先介绍一下概况,智能医疗的过去、现在和将来。回想一下小时候生病就是去医院,通常医生通过一些仪器检验提出治疗建议。而现在出现了各种各样的大规模数据、可穿戴设备、 辅助医疗的工具和平台等跟计算机有关的解决方案,使医生的工作可以更加简便有效。

将来会怎么样?有很多高通量生物技术现在正在发展中,比如基因组测序,还有基因编辑,可以修改我们基因组中的一些信息。就像你打字打错了,可以把它改过来一样。最终目标是实现高解析度、高精准度的个性化建议和治疗。可以通过数据驱动,用高通量技术和计算机建模提高整个社会的医疗效率。

我们比较一下就能看出智能医疗确实存在一些挑战。现在很火的阿尔法狗以及自动驾驶,它们存在一些规律:首先要建一个模型,接下来要看这个模型是否可行,然后需要做真实实验,并得到数据化的反馈从而提高模型。

围棋的规则很明确,数据模型很容易构建,真实实验基本无成本,瞬间反馈,实验高效。无人驾驶要难一些,规律相对明确,数据情况相对复杂,真实实验有一定的风险,回馈基本是瞬间反馈,数据量很大。我们再看一下癌症这个例子。我们是不是理解癌症这个问题的规则了呢?就目前来说,它发生的规律还不是很明确,大家还没有从基础研究角度在分子机理上完全理解癌症是怎样被引发的。数据模拟比较困难,因为不知道它的成因,因此模拟耗时长,成本高,数据量不足。维度很高,特点很多,但是数据量并不是很大,这些都是挑战。

但是我觉得这些问题是可以解决的。这张图是基因组数据的增长,而我刚才提到的那些挑战,我觉得基因组的研究中能起到很大的推动作用,因为它是从分子层面去理解我们身体细胞的运作机理。从这个图能看出,2001年在人类基因组计划刚刚结束的时候,测一个人的基因组的30亿个碱基对,需要花费约1亿美元的成本。现在测一个全基因组可能只需花费不到1千美元,将来还会越来越便宜。图中有一个拐点,是由于2007年时候高通量技术快速发展使得测序成本大大降低。

最近有科学家做了预测,认为大概到2025年时,基因组数据量会超过Youtube、天文数据、还有Twitter的数据量之和。这其中最大的推动力就是测序成本的降低。现在测序仪可以做到比手机还小,通过这种可移动测序方式,可以预见今后几年内数据会呈指数级增长。

人类的基因组有30亿个碱基对,如果把23对染色体连起来,有约 6英尺这么长,而细胞核直径就5微米左右,6英尺的DNA就绕在5微米的细胞核内。基因组上的基因产生蛋白质,蛋白质完成了人体细胞内不同的功能。编码区是指DNA产生蛋白质的区域,而这部分在基因组里面不到2%,还有98%的部分被称为非编码区,它的具体功能是什么?到底怎么运作?现在我们只有一些片面理解。基因组的大部分区域的主要功能是什么?这是现在的一个研究热点。

我们身体上有不同的细胞,基因组在不同细胞中就DNA序列而言是基本一样的。但是我们身体上有各种各样的细胞类型,皮肤细胞、肝脏细胞、肌肉细胞等等,这些不同细胞有不同的细胞形态。几乎相同的基因组可以产生不同的细胞,主要原因是不同细胞的基因表达和表观基因组不一样。我们一直在探索同一个基因组,在不同细胞中,对不同的疾病、对整个人的身体运作到底起什么作用?你想理解不同的疾病,那么从怎么根本上理解细胞系为什么不同是非常关键的问题,因为某类疾病通常在某一个细胞系上,尤其像癌症。

当然你仅仅把基因组数据拿到是远远不够的。要真正的实现智能医疗,真正理解不同的疾病的关键成分,需要理解分子的机理。在这本乔布斯传中写到他当时花了10万美元去分别检测它的正常基因组和胰腺癌肿瘤的基因组。他想通过DNA测序知道他的癌症如何治疗更有效,但结果并没有给治疗带来太多帮助。这只是一个例子,关键是如果技术不是问题,可以测得基因组全部信息,下一步就要去理解对一个病人来说,比如说对乔布斯的胰腺癌来说,最有效的治疗手段是什么?怎样控制癌症?如何进行有效的治疗。

我们来看一下,像计算机算法、机器学习、人工智能在这个过程中能起到什么作用?与围棋,自动驾驶相比,基因组层面要实现对智能医疗的贡献有什么挑战?首先是当前对基因组分子水平的认识还是相当有限,我们对大部分复杂疾病的分子机理了解甚少,尽管当前通过各种数据积累和技术手段认识有了一定的加深。我们至今对各类疾病的异构性缺乏理解,刚才也提到了,即使同样一种癌症,不同的病人,他们的致病机理可能非常不同,需要对每一个病人提供个性化的研究和治疗。

其中我们对各种模态的数据之间的关系还不是很了解,基因组只是一类信息,即使在基因组上也有各种各样的模态数据,有基因组序列,有基因表达数据,有表观基因组的数据,还有蛋白组数据。这些数据之间到底是什么关系,我们不太了解,如果确实需要最有效整合,需要了解不同模态数据之间的关系。

我举几个例子,这是过去一两年中我自己的几个研究生做的项目,我们想开发一些机器学习的方法从比较基础层面理解刚才我提到一些问题。第一个例子,左图是乳腺癌癌细胞,正常人的细胞有23对染色体,而癌症基因组染色体会产生极大的变化。正常的话会看到同颜色并排两条染色体,但是现在能看到有的颜色譬如有4、5条,还有的染色体在癌细胞中有不同的颜色,说明它在癌细胞中产生了很多拷贝数变化以及重排。这是我两年前毕业的学生做的博士论文课题,他构建了Probabilistic Graphical Model。因为在研究过程当中会发现有很多潜变量,但你想预测这些潜变量会比较困难。测序后你只能在基因组上看到它测序后read数,但是你想知道的是,对于每一条染色体来说,它的拷贝数在每一个位点上是什么样的,这是一个潜变量。这是第一个例子。    

第二个例子,假设你已经能够把每一个癌症基因组里面产生的突变全部找出,怎么判断哪个突变对于某一个病人来说最重要。这个巨大的挑战就是异构性。但在这种情况下我们可以设计一些方法,对于这些突变做一些个性化的预测。

这个又称为长尾现象,X轴指不同的基因,不同的位点,Y轴指病人的数量,可以看到大部分的位点,基因突变次数其实很少,那怎样知道对某一个病人来说这个突变就会很重要呢?这个是我的一个MD/PhD学生做的课题,他研究了不同的突变在单个病人基因组里面到底起什么作用,并构建了一些模型。通过这种网络图直观了解基因间不同调控的关系并做一些预测

接下来这个例子,可能跟表观基因组更相关,刚才提到6英尺染色体可以绕在5微米细胞核里面,这个过程极其有规律。如果产生一些不应有的变化,就会导致各种各样的问题。比如说右图的例子是早衰症,绿色的部分这是一个正常的细胞的核纤层蛋白,这个细胞核形状应该是圆形的。但是这个早衰症小孩的细胞呈不规律的形状。这种变化导致染色体在细胞核内部空间上的组成产生变化,这是一个主要的致病问题。在癌症等其他的疾病里面,也存在这种变化。也就是说染色体并不是一个你看到的线性序列,实际上是一个立体的空间结构。也就是说两段序列在一维空间可能离得很远,但是三维空间就很近,中间这个例子就是这种绕圈关系。

最近我们感兴趣的是,两段序列在某一个细胞系里在空间上是不是离的很近?因为这些距离关系对于基因调控有很大影响。这是一个特定的基因组问题利用机器学习方法,如果我给你两段序列,一种叫enhancer一种叫promoter,我能不能预测他们空间上是否离的很近。我们借用了一些自然语言处理中的模型,比如机器翻译,尝试了一些深度学习的结构,来做距离关系的预测,效果不错。有了这样的模型,就可以扩充工具,有了预测工具看到突变我们就知道这个突变是不是打断了原来应有的空间交互。我们尝试了在皮肤癌样本里找相关一个例子,原来应该有一个绕圈关系,由于一个突变这个绕圈关系被打断了。

现在我们开始做不少多模态数据的整合方面的工作。我们发现现在很多做影像只是做影像,与基因组信息结合不足。我们最近做了一个小项目,我们用乳腺癌的H&E染色图像,通过影像分析细胞空间上的组成,建立一个预测模型,能不能通过这个影像的一些结构预测是乳腺癌的哪个亚种?或者基因表达应该是什么样?除此之外我们还想尝试怎样理解基因组层面信息,和可以看到的疾病类型还有可以从影像当中看到的细胞形态空间上的组合,这两者之间的关系。在对这些不同模态信息理解的基础上可以更加有效的整合不同的数据。

我刚才讲,基因组给了我们很多信息以及不同模态数据。但是每个人情况都不同,每个人对于不同的疾病基线也不同,生活的环境、饮食、活动、情况这些都不太一样。根据每个人的基线做一些预测,根据个人化的信息做出医疗建议。这就是高解析度,你可以知道你做的每一步对这个人来说,基线在什么地方,高精准的根据个人化的信息做一些建议。

最后一个图是一些展望。我们到目前为止主要研究的基因组数据只是专业化数据中的一部分,基因组不能解决一切。可能我们现在知道的不多,数据量有限,需要数据采集。但是可以与其他的信息做结合,比如说跟影像、医疗记录结合,也可以在各种各样的移动设备上采集信息,这两者信息之间怎么更好结合?这个是大家所关心的问题。要实现我们的展望:今后你不只是活得还不错,还要活得开心,只靠医疗数据是不够的,医生不只是治病,也能对你平时的生活习惯提出建议,通过数据驱动,以及建模来使你生活方式、整个社会医疗都能够提高效率。

学术界以及工业界需要更多创新性的合作,因为学术界或许有一些新的算法,但可能数据的质和量都不是特别好。这时就需要业界的一些支持,甚至政府的一些帮助,包括刚才说到跟隐私相关的等等,需要各个环节在一起合作。健康不仅仅是医生的,也不仅仅是人工智能的,健康是每一个人的、可以行动和改变的。我们所要做的,是基于数据,为这样的行动和改变,提出建议。讲到这里,谢谢大家!

原文发布时间为:2017-11-29

本文作者:AI WORLD 2017

原文链接:CMU副教授马坚:精准基因组数据和智能医疗最新进展

时间: 2024-09-23 00:17:10

CMU副教授马坚:精准基因组数据和智能医疗最新进展的相关文章

医学影像大数据与智能医疗

通常大数据是指数据量和数据维度均很大,数据形式也很广泛,如数字.文本.图像.声音等等.在医学领域,随着信息化的不断深入,医学数据也越来越丰富,其中医学影像数据是一个十分重要的组成部分,而且,医学影像信息被数字化.数据化后形成了丰富多样的.存储量庞大的医学大数据.今天,我们就讨论一下利用医学影像大数据推动智能化医疗发展方面的话题. IBM的智能医学影像分析项目-Watson计划 据报道,IT巨头IBM将以10亿美元收购医学成像设备提供商Merge Healthcare,后者主要帮助医生和医院存储和

一文告诉你,大数据在智慧医疗领域发挥的作用

 智慧医疗是医疗信息化的升级发展,通过与大数据.云计算技术的深度融合,以医疗云数据中心为载体,为各方提供医疗大数据服务,实现医生与病人.医生与护士.大型医院与社区医院.医疗与保险.医疗机构与卫生管理部门.医疗机构与药品管理之间的六个协同,逐步构建智慧化医疗服务体系.其中,健康大数据平台的搭建为智慧医疗奠定了基础. 针对大数据在智慧医疗应用中担当的角色,ADI公司亚太区医疗健康行业市场经理王胜先生认为:"大数据在智能医疗应用中,尤其是在疾病预防类以及慢性病的监测方面都会发挥重要的作用.例如,生活方

沉睡的广告巨人亚马逊:大数据时代广告新玩法

虽然拥有令无数广告主羡慕的高质量用户数据和巨大的网站流量,但是在很长的一段时间内亚马逊还是将主要的精力集中在商品销售上,广告只是作为自身业务的补充可有可无的存在.不过最近两年,亚马逊对广告这种不屑的态度正在逐渐发生变化,"沉睡的巨人"正在苏醒,慢慢对外界显露其在广告方面的野心. 一.发展迅速的广告业务根据eMarketer最新发布的数字显示,亚马逊2013年的广告收入(扣除流量购买成本)将达到8.35亿美金,较之2012年的6.10亿美金增长45.51%,预计这种高速增长仍将持续.eM

大数据应用在医疗的五大方向

医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析.因此,医疗行业将和银行.电信.保险等行业一起首先迈入大数据时代. 本文列出了医疗服务业5大领域(临床业务.付款/定价.研发.新的商业模式.公众健康)的15项应用,这些场景下,大数据的分析和应用都将发挥巨大的作用,提高医疗效率和医疗效果. 一.临床操作 在临床操作方面,有5个主要场景的大数据应用.麦肯锡估计,如果这些应用被充分采用,光是美国,国家医疗健康开支一年就将减

最具前景的应用,医学大数据颠覆传统医疗

大数据及大数据技术的出现,使得各行各业面临着新的变革,这些变革或者大大推进了行业的发展,或者逐渐颠覆传统的运行和发展模式.例如,互联网和信息行业的快速发展使其具备了新的内涵:通过深度的数据管理.数据挖掘.数据分析等展现大数据,可以对行业发展起到预测.预警.指引等作用,大数据将其精准.客观.科学的价值转化为一种生产元素,渗透到传统行业的各个环节中去,从而带来某些.甚至是本质上的变革. 医学大数据颠覆传统医疗 传统的物质世界,因为时空限制,信息是严重不对称的.我们以往很多的商业模式都是基于信息不对称

大数据推进个性化医疗的五大原因

大数据,由于与医疗保健相关,已经出现在个性化医疗革命的中心.简单地说,数据的增长给诊断精准性的提高提供了巨大的可能性,因为研究人员能够深入探寻从而创造更多的,尤其是在分子和组织水平的,有针对性的治疗. 美国Definiens公司是生命科学领域里,对生物标志物诊断和医疗保健行业的定量数字化病理图像分析和数据挖掘解决方案的领先供应商.该公司的首席执行官,托马斯黑德勒,和我们探讨了大数据推进个性化医疗事业的五大原因. 1. 能解开未知 科技可以帮助我们从实验样品和活组织切片中获取大量的数据.这就使我们

健康医疗大数据应用 传统医疗面临挑战

回顾历史,"大数据"这个时髦的词汇,在物理学.生物学.环境生态学等领域,以及军事.金融.通讯等行业存在已有时日.但是真正引起人们高度关注的,还是因为近年来互联网和信息行业的迅速发展所致.数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来.搭上"互联网+"的列车,医疗机构便开始行进在医疗信息数字化的路上. 大数据医疗 其中,健康大数据应用是新医疗服务模式的核心,无论是患者健康数据

大数据让智能制造成有源之水

制造业强调提升创新能力和基础能力,"十三五"规划的先进战略聚焦宽带中国.云计算.物联网.大数据等项目.而这正是智能制造迫切需要的,所以现在对智能制造来讲,充满发展机会. 难的是写程序 早在1956年,以麦卡赛.明斯基.罗切斯特和申农等为首的一批年轻科学家探讨用机器模拟智能的一系列有关问题,并首次提出了"人工智能"这一术语.直到最近韩国围棋手李世石败给谷歌的人工智能,人们一度质疑,人工智能会不会超越人类智慧. 人工智能要超越.统治人类,目前来看难以实现,很多处理能力是

大数据如何赋予医疗行业最大价值?

文章讲的是大数据如何赋予医疗行业最大价值,当在医院看医生的时候,我们信任医护人员的专业知识,相信他们会根据我们的情况以行之有效的科学方法做出处理,这被称为循证医学(EBM).它的意思是,医生们开具的处方和选择的处理方式是在临床研究中已经被验证过,是正确的.可行的. 虽然"循证医学"这个词只能追溯到20世纪90年代初,但这一概念却是古时留下来的.对照临床试验早在20世纪40年代早期就已经进行过了,临床知识和专业知识也早已在医学杂志和教科书中被传播.(事实上,最古老的的医学杂志至今仍在运转