生物医学:急需理解大数据的复合型人才

大数据时代的蓬勃发展对生物医学研究也造成了极大的影响:海量的数据需要在不同的系统和机构之间共享与分析,但是因为缺乏统一的标准而使得研究者无从下手;信息技术与生物医学的完美结合使得联系更为紧密,而两者兼通的复合型人才也已经明显稀缺。

面对如潮水般涌来的海量数据,如何更好地利用,成为信息技术和生物医学领域共同面对的挑战。

大数据时代扑面而来

2012年,美国政府发布了《大数据研究和发展倡议》,旨在利用大量复杂数据集合获取知识和提升洞见能力,投入金额高达2亿美元。

所谓大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助决策更积极目的的资讯。

前不久,在以“信息技术与未来医学”为主题的第二届“与大师同行”学术交流活动上,来自耶鲁大学、麻省理工学院与哈佛大学博劳德研究所、美国劳伦斯伯克利国家实验室、中国工程院等研究机构的国际知名学者,对大数据对生物医学的影响、大数据时代生物医学研究标准化困境和复合型人才缺乏难题进行了探讨。

中国工程院院士韦钰表示:“生物医学正进入大数据时代,很多研究都是大数据研究、大数据存储,从大数据里面挖掘新信息。”

她举例说,比如现在诊断某种疾病,医生可能需要调用患者的基因数据、从小到大的病历等大量数据。

近日,深圳华大基因研究院院长汪建曾表示,大数据与大科学是未来生物经济发展的核心点。“要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据。这种大数据揭示的就是大科学,从而衍生出大产业。”

仅以深圳国家基因库为例,其中的样本量已达130万份,其中人类样本115万份,动植物、微生物等其它样本15万份。至2013年底,预计实现1000万份可溯源生物样本的存储,2015年底实现3000万份生物样本的存储。

而这仅仅是不断膨胀的大数据的冰山一角。

标准化困境浮出水面

不同系统和科研机构之间难以实现标准化的数据共享和分析,这令很多科学家无所适从。

美国特拉华大学生物信息学和计算机生物学中心主任吴慧华表示,上述问题是生物医学与信息科学结合过程中遇到的关键难题。目前获取海量数据变得越来越方便,但一家机构与另一家产生的资料有很多差别,把这些信息集中分析时就需要一个共同的标准。

以对大数据需求最为迫切的医院为例。美国劳伦斯伯克利国家实验室基因组科学部主任鲁宾(Rubin)表示,理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准,但现实并非如此,各个医院存储的数据标准不同,而且不同系统存储的信息也不一样。

据吴慧华观察,目前在美国等国家,不同机构和资料库产生和存储的数据都是遵从不同的标准,标准化问题在业内尚未达成共识。

对于标准化之难,鲁宾解释说,数据量大并非关键,而是数据类型的多样性导致了难以统一标准。

他说,比如基因测序,虽然数据量很大,但属于同一类型,就比较容易在同一标准下进行分析,而生物医学方面的数据就困难得多,涉及血压、心跳等多种不同类型的临床和数字化信息,有些数据之间难以关联,这便造成了标准化的挑战。目前各个国家已经开始重视这个问题,信息科学和生物医学的学者需要更加紧密的合作。

在吴慧华看来,中国科学家应该积极加入国际标准的讨论、设计和制定中,更多参与国际上的生物医学信息共享。

复合型人才凤毛鳞角

标准化虽然艰难,但与会业内人士普遍认为,当务之急是解决生物医学和信息科学兼通的复合型人才缺乏困境。因为两者结合过程中的标准化及一系列问题的化解,需要研究者对两个领域都有很深的造诣。

据与会专家介绍,目前鲜有高校主动设置生物医学和信息科学的交叉学科和院系,横跨这两个领域的复合型人才大多源自学者自发或在导师引导下的选修。

耶鲁大学医学院干细胞研究中心主任林海帆对自己的一位学生印象深刻。这位学生曾经主动提出关注生物信息方面的研究,当年很多老师以为他不务正业。最后他选择了兼修信息科学,现在已经是生物医学和信息科学兼备的稀缺人才。

“我发现有的学生虽然选择生物专业,但其实很有数学天分,我们研究所信息部的主任就是这样培养出来的。”林海帆说。

吴慧华正是这种复合型人才的典型。她同时具备生物学和计算机科学教育背景,曾获台湾大学理科学士学位、美国普渡大学植物病理学硕士和博士学位,以及得克萨斯大学泰勒分校第二硕士学位(计算机学)。

为促进多学科研究和教育,她2009年在特拉华大学创立生物信息学与计算生物学中心(CBCB),由来自5个学院的60多名教师组成,并创立或负责多个生物信息学教育项目。

麻省理工学院和哈佛大学博劳德研究所副主任、首席信息官梅西罗夫(Mesirov)介绍,美国政府正在推动计算机科学和生物学等交叉学科的教育,从国家级科学中心的层面,促进高中阶段的学生开始学习交叉学科的知识。

这,也许对中国会有所启迪。

时间: 2024-09-26 21:10:56

生物医学:急需理解大数据的复合型人才的相关文章

大数据2014年面临几道关 急需“国家大数据战略”宏观统筹

大数据从"概念"走向"价值",基于大数据的推荐与预测逐步流行,数据科学将兴起,安全与隐私成为重要问题,大数据产业成为战略性产业--这是中国计算机学会大数据专家委员会对"大数据"2014年十大趋势预测中的内容.在这份预测中,还包括数据商品化与数据共享联盟化,大数据生态环境逐步发展等.同时,大数据专家委员会预测,2014年,互联网和电子商务.金融(股市预测.金融分析).健康医疗(流行病监控和预测等),生物信息.制药等方面将会有令人瞩目的应用.刚刚过去

饶少阳:运营商急需网络大数据能力

在"合作共建大网络"专题峰会上,中国电信北京研究院网络规划中心副主任饶少阳表示,网络大数据通过运用大数据技术,分析和挖掘网络上用户流量流经各网元产生的数据,可实现网络的可视化,当前运营商急需网络大数据能力. 饶少阳指出,随着SDN/NFV等技术的发展,网络朝着越来越灵活的方向发展,只有建立在可感知基础上的网络,灵活的调整才是更有意义的.而网络大数据可以改变运营商运营网络的方式 ,最终可实现数据驱动运营.实现的方式是:通过采集和综合散布于网络各处的数据,将用户的发展情况,用户-应用网络质

《拥抱机器人时代——Servo杂志中文精华合集》——4.8 理解大数据

4.8 理解大数据 当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值.这就是所谓的大数据的技术问题.这是一个描述大量数据的简单术语--数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了.为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果.总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论. 处理物联网所收集的大数据实际上会面临3个挑战.首先是数据的获取,其次是数据的存储,最后是数据的分析. 4.8

《大数据导论》一第1章 理解大数据

  本节书摘来自华章出版社<大数据导论>一书中的第1章,第1.1节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问"华章计算机"公众号查看. 第1章 理解大数据 大数据是一门专注于对大量的.频繁产生于不同信息源的数据进行存储.处理和分析的学科.当传统的数据分析.处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要.具体地说,大数据能满足许多不同的需求,

《大数据导论》——第1章理解大数据

第1章理解大数据大数据是一门专注于对大量的.频繁产生于不同信息源的数据进行存储.处理和分析的学科.当传统的数据分析.处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要.具体地说,大数据能满足许多不同的需求,例如,将多个没有联系的数据集结合在一起,或是处理大量非结构化的数据,抑或是从时间敏感的行为中获取隐藏的信息等.虽然大数据看起来像是一门新兴的学科,却已有多年的发展历史.对大型数据集的管理与分析是一个存在已久的问题-从利用劳动密集方法进行早期人口普查的工作,到计算保险收

《万物互联》——2.8 理解大数据

2.8 理解大数据 当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值.这就是所谓的大数据的技术问题.这是一个描述大量数据的简单术语--数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了.为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果.总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论. 处理物联网所收集的大数据实际上会面临3个挑战.首先是数据的获取,其次是数据的存储,最后是数据的分析. 2.8

南明区将引进和培养大数据高端人才逾千名

到2020年,南明区计划引进和培养大数据高端人才与创业人才1000名以上.研发与应用人才2000名以上.相关产业基础人才和从业人员1万名以上. 记者日前从南明区人才办了解到,"十三五"期间,为进一步夯实大数据产业发展人才保障机制,该区将充分发挥南明大数据电商产业聚集区.花果园云产业示范基地等创新创业平台集聚人才的主体作用,加大创业资助力度和企业聚才支持力度,健全科技创新服务体系,吸引大数据领军人才.高层次人才来南明区创新创业. 对符合大数据产业发展需要,直接引进到企业从事技术创新.项目

只要1000个字,文科生也能理解“大数据”

只要1000个字,文科生也能理解"大数据" 时间:2014-11-01 17:32 来源:虎嗅 作者:许维 大数据对绝大部分人来说就好比"叶公好龙" 里面的龙,听说过没见过.大家都知道大数据很流行, 但是真正理解大数据的逻辑的人仍然不多.我 觉得这个问题更多是出在大数据的推广者自己身上,写的文章术语太多,谈理论太多,不接地气,以至于让普通人看不懂.当然这也不能怪他们,能把大数据玩转的基本都是理科生,写文章并非他们擅长的事情.今天我尝试着就用1000字的篇幅,把大数据

正确理解大数据 谨防数据“泡沫”

被新闻媒体和学术会议宣传得近乎神化的大数据,最近也频频被泼冷水.2013年年初,美国知名大数据分析公司Avasid联合创始人兼CEO Gurieet Singht就暗示大家"大数据"可能并没有那么靠谱.他指出,从查询开始分析数据本身就是一个死胡同,目前,研究人员还只是从收集到的数据中提取1%进行分析,而这1%被分析的数据却用来支配企业的革新和形成某种见解,这显然是不科学的.2013年5月,阿里集团王坚的一篇"大数据,你们都理解错了"的讲话,立刻抓牢人们的眼球,也值得