流感防治和大数据

德国柏林,一位医学研究所的研究员在进行流感病毒分析。

大数据中的流感

近些年来,病毒性流感一波又一波袭扰人类,这不但引起学术界的密切关注,而且还经常成为公共领域热议的话题。从 2009 年传播力惊人,造成全球 20 万人死亡的 H1N1 甲型流感,到今年年初,导致整个中国坐立不安的H7N9禽流感,流感病毒不断改头换面浮现世间,令药物和疫苗要么准备不及,不敷使用,要么无法预防,中看不中用。彼时,如果能提早发现流感的发病趋势,不仅能为抗病毒药物的准备争取宝贵的时间,而且还有助于疫苗研发机构能尽早“对症”采取措施。

现有的流感检测主要基于世界卫生组织在 1952 年建立的全球流感监测网络。这一网络由来自 99 个国家的 128 个国家流感中心以及流感参比和研究合作中心组成。

就目前的情况,这一网络运行态势平稳,对流感的监测和防控起到了巨大的作用,但这是因为最近数十年,流感多是地区性流行。按照大流感的流行周期,威胁全球的大流感出现的几率越来越高。

这也对流感监测提出了更高的要求:如何更早更准确地发现流感流行的苗头?

有一群谷歌工程师也有同样的想法。作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。

可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。

工程师们首先面临的任务是选择流感相关的关键词。这一步看似简单,但却非常棘手。虽然可以肯定包含“流感”字样的关键词一定会入选,但语言的组织形式多种多样,具体应纳入哪些关键词,依然难以确定。

工程师索性将关键词的选择权“粗暴”地交给了机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。

事已至此,罗马的一半已经建成。接下来就要去芜存菁,从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词落入工程师的法眼。

实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。

显微镜下的 H1N1 病毒图。

结果仍有缺憾

很快,谷歌根据这一结果推出了名为“流感指数(Google Flu Trends)”的产品,据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家,并由检测流感拓展到另一种感染性疾病登革热。谷歌工程师对这一产品如此自豪,以至于在产品推介视频中,CDC 的结果完全沦为陪衬,但事实果真如此么?

由于“流感指数”的高低在很大程度上取决于用户的搜索行为,有观察家认为,如果一些事件会影响到用户的搜索,那么指数就有可能出现假阳性或假阴性。果不其然,在谷歌流感指数运行期间,人们逐渐观察到原有模型的缺陷。

早在 2009 年,谷歌流感指数就暴露出了算法可能存在问题。那年在主要国家流行的流感病毒株是 H1N1 型。该毒株传播力惊人,不过毒力较弱。也就是说,相当一部分人感染了H1N1后多表现轻微的典型流感症状,并不会引发更严重的并发症。也许是这一原因导致谷歌用户并未过多关注当时流感的流行状况,致使流感指数的估值严重低于 CDC 的上报数量。这一假阴性错误迫使谷歌工程师第一次大幅修改了算法。

时至 2013 年,流感再一次引起了世人的广泛关注。在中国,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人传人的迹象。而在美国,流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告,以警示民众。这些消息获得大众媒体的广泛报道。然而,谷歌流感指数的表现再次让人大跌眼镜:指数估值出现了假阳性,即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评,但大部分关注这一指数的研究者认为,流感疫情获得媒体连篇累牍的报道,影响了谷歌用户的搜索行为,导致指数估值出现偏差。

在谷歌流感指数启发之下,很多研究者试图利用其他渠道(比如社交网站)的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用 Twitter 的数据进行了尝试。利用团队开发的文本分析工具,研究者在一个月内收集了 60 余万人的 440 万条 Twitter 信息,挖掘其中的身体状态信息。最终的分析结果表明,研究人员可以提前 8 天预报流感对个体的侵袭状况,而且准确率高达 90%。

不过研究者也承认,这一算法并非完美,比如 Twitter 的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。另外噪音信息的干扰也很难去除。比如研究者在监测 Twitter 上关于流感的信息时,突然发现一个峰值,而那时完全不是流感的流行季,进一步分析显示,原来是纽约湖人队的篮球巨星科比·布莱恩特在那时罹患流感,但仍带病上场,从而引起球迷在 Twitter 上热议所致。

4 月 10 日,昆明市疾控中心国家流感网络监测中心实验室,技术人员正在进行流感病毒的检验检测。

大数据视角下的甄别手段

利用搜索引擎的检索词以及推特的文本挖掘来提前感知流感的脉搏,的确是一种有效的手段,虽然目前仍处于“进化”阶段,但至少可以作为现有监测网络的补充。

上文提到,就大流感的流行周期来看,下一波流感的全球流行很快就会到来。科学家估测,全球流感暴发的导火索很可能是肆虐于禽鸟间的高致病性禽流感具备了人际间传播能力,而 H7N9 或许就是大流感来临前的警钟。

病毒感染人类,就像用钥匙来开锁,如果二者并不匹配,感染过程就无法发生。不过流感病毒是一种很特殊的病毒,它能够通过突变相对迅速地改变“匙齿”,从而打开侵袭人体的大门。1918 年,造成全球数千万人死亡的西班牙大流感就是血淋淋的例证。

相对于利用大数据获取的流感流行趋势,科学家的视角更加深远,他们希望发现哪种流感毒株是毒性最烈的大杀器,希望揭示原本在禽类或猪体内传播的流感病毒是如何发生惊人一跃,转而在人际间流行的,由此为疫苗和药物的研发赢得宝贵时间。

在以往,要回答这一问题,需要比较不同毒株的 DNA 或蛋白序列,这一过程就像在一片森林里挑出一棵树冠漂亮的树一样冗长繁琐甚至有些痛苦。如何对旧有方法做出改进,美国哥伦比亚大学研究者 Rabadan 开始了他的尝试。

他的研究基础依然建立在基于互联网形成的大数据上。世界各地科学家在对手头的病毒样本进行研究时,会将其中的序列信息经由互联网提交公共数据库中。经年累月之后库中积累了大量序列数据。

这些序列数据就像广袤的森林,如何挑出其中树冠最美的树,Rabadan 利用一套复杂的机器学习算法来实现这个目的。

首先 Rabadan 使用已知种属来源的流感病毒数据输入到算法中,教会其如何“审美”,即具备识别哪些病毒来自人类,哪些来自禽类或猪。这一算法训练成熟之时,同时也是其大显身手之日。研究者让其对数据库中6万个病毒基因组进行了分析。大数据视角下的甄别手段果然不一般,Rabadan 已经发现了一批候选突变,认为导致病毒跨物种传播助推器就隐藏在其中。

目前,世界各地多个研究小组正在使用这种方法从不同角度对流感病毒展开研究。美国 St.Jude 儿童医院病毒学家 Richard Webby 认为,在互联网的帮助下,大数据理念与机器学习算法携手,如同为流感研究插上了双翼。这一手段不仅唤醒了沉睡的序列信息,而且还可成为科学家的第三只眼,尤其是在危险的惊人一跃发生之时。

本文作者:佚名

来源:51CTO

时间: 2024-11-01 02:12:09

流感防治和大数据的相关文章

“谷歌流感趋势”把大数据推上风口浪尖

大数据是时下最时髦话题,技术专家.企业家为人们描绘了大数据下的美好生活.近期,美国学界和媒体有关"谷歌流感趋势"的讨论,又把大数据推上了风口浪尖. "谷歌流感趋势"是谷歌公司多年前推出的一款预测流感的产品.该公司的工程师认为,搜索流感信息的人数与实际患病人数之间存在密切关联.通过汇总用户的相关搜索记录,"谷歌流感趋势"可以预测出世界上不同国家和地区的流感传播情况.2009年,http://www.aliyun.com/zixun/aggregat

那些材料科学下的大数据

从各项发明的产生可以看出一个规律,新材料哺育新发明.Gorilla Glass 已经大量被应用于智能手机;凯夫拉在拯救生命之余开始进入消费级产品;锂离子电池技术为高能耗设施提供了动力来源.尽管这样,研发新材料却是一项极其费时费力的任务. 在和那些依赖这些材料的产品的研发周期相比,创造一种全新的突破性材料是极其费时的过程.波音 787 梦幻客机从概念到商业航行只花了 9 年不到;苹果从 2005 年开始设计 iPhone,2007 年就可以正式上市.作为对比,新型材料的诞生可能要花上长达 20 年

百度上线流行病预测,大数据进入应用模式

2010年<让子弹飞>中土匪张麻子在伏击县长马邦德时有一句经典台词:"别急,让子弹飞一会."最终子弹成为胜负的关键一枪,也是这么一颗子弹串起了剧中所有人的命运. 用一个四年前的老电影故事的主要原因是,子弹在飞与击中目标的过程,以及过程中看客心态,射击者心态,与我们当下的一种环境十分相像:大数据与公共卫生建设.在过去的几年间,大数据技术之于公共卫生就像一颗高速飞出的子弹,一直飞在空中,无法真正为公共卫生提供成熟可操作的解决方案. 回望过去,2009年的一场甲型H1N1 流感是

百度上线流行病预测 大数据进入应用模式

2010年<让子弹飞>中土匪张麻子在伏击县长马邦德时有一句经典台词:"别急,让子弹飞一会."最终子弹成为胜负的关键一枪,也是这么一颗子弹串起了剧中所有人的命运. 用一个四年前的老电影故事的主要原因是,子弹在飞与击中目标的过程,以及过程中看客心态,射击者心态,与我们当下的一种环境十分相像:大数据与公共卫生建设.在过去的几年间,大数据技术之于公共卫生就像一颗高速飞出的子弹,一直飞在空中,无法真正为公共卫生提供成熟可操作的解决方案. 回望过去,2009年的一场甲型H1N1 流感是

大数据的应用统计之殇

今年,统计对大数据是非常重要的这一观念充斥着大众媒体.这里有几个例子,首先是Lazer等人在科学杂志上发表的文章,使得这一观念迅速蔓延. · 谷歌流感的教训:大数据分析的陷阱 · 大数据,我们犯了一个大错误? · 谷歌流感趋势:大数据的限制 · 八个(不,九个!)大数据的问题 所有这些文章涉及的问题都是统计人员思考了很长时间的问题:抽样总体,干扰因素,多重检验,偏置和过拟合.在大数据的热潮中,这些想法都被忽略或没有给予足够的重视. 原因之一是,当你真正花时间做一个正确的分析,仔细注意数据变化的所

大数据引擎撬动万亿产业

"技术会改变互联网.很多人已经感受到互联网对生活的改变,但较少感受到技术对互联网的改变."在4月24日举行的百度第四届技术开放日上,百度CEO李彦宏认为,并行计算能力的提升和云存储技术产品成本的降低,使大数据走到了技术变革的临界点.百度开放自己的大数据核心能力,将更好地帮助传统行业挖掘数据价值,加快传统行业转型升级. 事实上,大数据的重要性已受到相关政府部门的关注.在国新办4月23日就2014年第一季度工业通信业发展情况举行的发布会上,工信部总工程师.新闻发言人张峰表示,下一步工信部将

谁在享用大数据红利?

百度能知道我们在关注什么,淘宝能洞察我们喜欢什么,这是喜还是忧?大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.<自然与科技>杂志最近刊文研判,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来. 没有最大,只有更大 维基百科这样定义大数据(Big data):大数据或巨量数据.海量数据.大资料,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工截取.管理.处理并整理成为人类所能解读的信息. IBM团队为了让电脑战胜国际象棋冠军卡斯帕罗夫,收

大数据的财富与陷阱

大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来. 2013年10月28日,三名新疆籍恐怖分子驾吉普车冲撞天安门,恐怖分子当场全部烧死,可是警方仅用了10多个小时就全部抓住了5名同伙.警方如何快速锁定嫌疑犯,这是国家秘密,但是从媒体披露的蛛丝马迹中,我们还是能发现无处不在的监控视频和电信追踪起到了至关重要的作用.从天安门广场追溯过去的海量信息,通过一些模糊匹配方法能快速地过滤信息,最后找出恐怖活动与嫌疑犯

美国人是如何利用大数据的应用来防止流感的蔓延

目前,大数据发展的势头可谓"如火如荼",不过拥有数据并不意味着拥有其价值,只有对数据进行分析挖掘,发现有用的信息,进而"破译"这些信息才能够真正的创造价值.拥有数据就拥有其价值,这是多数人对大数据的误解之一.最近,波士顿和纽约宣布出现流感疫情.在波士顿市,目前已经呈报了700个案例,其中18人已经死亡.为了让疫情得到有效的控制,卫生官员以及应用开发人员向大数据寻求帮助.CloudTimes的记者Florence de Borja介绍了美国人是如何利用大数据进流感疫情