盖茨基金会:如何使用Python拯救生命

每年全球都要花费数十亿美元来预防疾病,减少死亡,资助预防保健及治疗的各种研发项目,以及其他的健康方案。但资金毕竟是有限的,所以一些组织,比如全球卫生资金的主要捐助者比尔&梅林达·盖茨基金会(Billand Melinda Gates Foundation),需要考虑优先把钱花在那儿。华盛顿大学健康指标及评估研究所(Institute for Health Metrics and Evaluation,IHME)正在帮助解决这个问题,而且是用数据科学的方法。

IHME的主要项目之一,是全球疾病监测(Global Burden of Disease, GDB),这是一个“系统的科学举措,以量化因疾病、外伤及其他危险因素所致的可比较等级的健康损失”。这套系统能跟踪188个国家的300多种疾病和 50个风险因素,根据1990年至今的数据来建模。换而言之,GBD描绘的是囊括人致病或死亡所有可能的方式的全球图景。

例如,运行GBD的发达国家部分,会生成一个树状图,如下所示:

图中红色部分代表传染性疾病,像LRIs (下呼吸道感染,如肺炎等)、腹泻、艾滋病、肺结核和疟疾。绿色代表意外损伤,主要由道路交通事故、以及其他形式的暴力行为如战争和灾难所造成。最后,大块的蓝色部分表示非传染性疾病:缺血性心脏病、中风、癌症及许多其他疾病。

随后,GBD可以和“疾病控制优先顺序计划(Disease Control Priorities)”整合 - 该计划是评估世界各地的医疗费用、医疗的有效性和普及性的诸多项目的集合。这两个系统共同运作,为政策制定者服务,为需要优先配置资源的筹款项目提供依据。从本质上讲,它帮助类似盖茨基金的这类公益组织决定投资在哪里可以得到最佳效果,即,拯救最多的生命。

IHME需要处理大量数据。GBD的单次运行所产生的数据超过25 TB,一些更新的项目甚至超过1 PB。为了处理这样的数据量, IHME的计算机科学团队使用20,000核Sun Grid Engine集群,以及一个更新的基于Spark的1000核的集群。

“我们使用Python 来进行数据分析 ,因为它免费,且资源公开”,IHME科学计算部门副主任凯尔·福尔曼(KyleForeman),在2015年西雅图PyData会议上说, “我们是一个非营利机构,不想在购买软件上花费太多。而且我们正与世界各地的人们一同工作,Python的优势对该合作意义重大。 ”

Python具有可扩展性(对处理那些庞大的数据集至关重要),可进行快速原型设计,且易于使用。虽然IHME专门处理医疗卫生指标,但它的许多员工都是流行病学家和医生,而不是统计学家和计算机科学家。一些便利化程序,如Dashboard和iPython notebooks,对帮助这些电脑技术稍欠的合作者使用非常必要。

集合建模:让多数人满意

在提高一个国家健康水平的方法中,最重要的是确定死亡原因。毕竟,你想减少人们的死亡,而做到这一点的最好办法是要弄清楚什么让他们死亡。在估计死亡原因方面,IHME已经开发了一种称为CODEm(Causeof Death Ensemble,死亡原因集合模型)的统计模型。

“关于什么是最好的建模策略一直存在巨大的争论,”福尔曼说,“特别是因为我们有这样一个庞大的合作伙伴网络,我们使用一个集合策略来组合所有这些不同的方法,有选择地评估和挑选最好的,然后将它们组合成一个人人满意的集合。”

例如:为创建65岁俄罗斯人缺血性心脏病的模型,你可能会先采用线性回归,然后把不同的风险因素、周边国家和邻居的年龄组等相互作用的变量整合,再把残余信息采纳过来,然后通过高斯方法来回归(使用PyMC),以适应数据,并做出更好的预测。这些技术一起形成一个由几组相互作用的变量模型,然后和几千个别的模型交叉验证,生成集合模型,也就是在这个案例里所说的缺血性心脏病的整体模型。

另一个项目是关于疾病的建模,称为DisMod。 衡量某种疾病有许多不同的方法,比如你可以算一下有多少人得这个病,今年以来有多少人感染,一般的病期多长。 DisMod采用了流行病学数据,加上一些特定疾病的协变量,使用PyMC运行贝叶斯元回归(Bayesian meta-regression),以产生内部一致的数据集。

它是这样工作的:一个普通的疾病模型将一个人分类(共4类):易感,发病,因病而死,因并发症而死。然后,它使用了一系列微分方程来估计该患者从一类转换成另一类的各种概率(基于现有数据,协变量等等)。

展望未来

这些神奇的死亡和疾病模型的建立,使得 IHME 能够根据各种概率,预测全球健康的发展趋势,由此来展望未来。

通过追踪不同的条件和危险因素之间的相关性,跟踪所有单一疾病的全球疾病负担,并,IHME 可以预测生成该全球疾病系统(Global Burden of Disease)所跟踪的对每一疾病的可能发展情景。例如:在模拟血压和心脏病上升的时候,也看看是否钠(食盐)消费量也增加。同样,它也可以追踪一个国家的收入,同时看看烟草消费、死亡率和人口数的相关性。通过成千上万次地模拟运行这些相关性,将生成海量的数据,然后用基于 Python 的 统计模型来模拟。

这些大规模的模拟生成大量的数据资料( PB 级以上),所以他们需要以一种高性能、模块化的方式运行。要做到这一点,IHME 采用模块化的YAML来描述非闭合的流程图。每个数据集(GDP、死亡率等)被分配给一个节点,(通过使用 sympy 方程)这些节点之间的连线表示变量之间的相互影响(通过sympy表示)。

“这背后的想法,” Foreman 说,“是比尔·盖茨想知道他的钱花在了哪里,现在所做的一切,是为了拯救生活在2040年大多数人的生命。”

原文发布时间为:2015-11-20

时间: 2024-07-30 19:51:59

盖茨基金会:如何使用Python拯救生命的相关文章

盖茨基金会发起的“探索大挑战”

蚊子可被改造为"飞行注射器",咬人的同时可以给人体注射疫苗,这不是天方夜谭,而是盖茨基金会发起的"探索大挑战"六百多个获奖方案之一.这对生活在蚊子和传染病肆虐地区的人们来说,可能是救命的福音.总耗资达一亿美元的"探索大挑战"(Grand Challenges Explorations,简称"GCE")由盖茨基金会于2008年设立,它旨在帮助和应对为发展中国家人民带来重大且仅为少数人知的灾害和发展性问题,并面向全球征集和资助具有

英医学杂志称盖茨基金会对卫生事业几无贡献

北京时间5月12日消息,据英国著名医学<柳叶刀>杂志报道,比尔与梅林达盖茨基金会(以下简称"盖茨基金会")是由比尔盖茨及其妻子梅林达共同创立的慈善组织,1994年成立以来所提供的全球卫生保健基金的数额惊人. 当前,盖茨基金会每年开支约为30亿美元,令全世界开始重新思考挽救低收入群体的更具雄心的良策.盖茨基金会给全球卫生事业带来了活力.可靠性和吸引力.特别是,它开启了科学界对全球卫生事业奉献的新时代.例如,越来越多颇负盛名的基金组织,如美国国立卫生研究院,正是在盖茨基金会的推

海外PE建人民币基金陷困盖茨基金会弃投弘毅

12月11日消息,据路透报道,梅琳达-盖茨基金会由于担心联想弘毅在国内进行人民币集资,决定不再参与弘毅新一轮投资. 据消息人士透露,尽管弘毅投资总裁赵令欢澄清旗下的人民币和美元基金会关注国内的不同产业,但盖茨基金还是决定不参与弘毅的第二个美元基金,尽管在其第一个基金中,盖茨基金是一个主要有限责任合伙人. 今年1月,联想集团有限公司总裁柳传志表示,在获得政府审批后,弘毅投资希望尽快推出人民币私募基金,时间表定在一两年内. 业内人士表示,海外私募股权投资公司筹建人民币基金目前面临两难抉择. 根据亚洲

盖茨基金会CEO雷克斯将退休或竞争微软CEO

新浪科技讯 北京时间9月10日晚间消息,比尔·盖茨(Bill Gates)基金会CEO杰夫·雷克斯(Jeff Reike)已宣布即将退休.他将在继任者被任命之后离开盖茨基金会.雷克斯被 认为是微软下任CEO的可能人选.在退出盖茨基金会之后,许多人猜测,他可能接替即将从微软退休的史蒂夫·鲍尔默(Steve Ballmer),出任微软CEO.不过 美国科技博客GeekWire报道称,基于 多名消息人士的说法,雷克斯从盖茨基金会退休并不意味着他会回归微软.(维金)

盖茨基金会不受金融危机影响 明年支出增10%

腾讯科技讯 北京时间11月24日消息,据国外媒体报道,尽管近期的金融危机使得比尔及梅林达-盖茨基金会(Bill & Melinda Gates Foundation,以下简称"盖茨基金会")的资金市值急剧缩水,但是比尔-盖茨(Bill Gates)还是承诺,将会继续在增加教育.卫生和经济发展等领域的投入. 盖茨是在最近接受英国<金融时报>采访时发表上述承诺的,他表示,今年盖茨基金会的支出总额将达30亿美元,除非"全世界都贬值了",否则他们今后还将

盖茨基金会2008年捐款达28亿美元

北京时间6月4日晚间消息,据国外媒体报道,比尔和梅琳达·盖茨基金会当地时间周三公布了2008年财报.该财报透露了该基金会的财务状况和项目完成情况,该财报显示,在2008年,该基金会捐款高达28亿美元. 财报显示,截至2008年底,该基金会拥有总资产298亿美元,而2007年底拥有388亿美元.另据该基金会网站发布的消息,截至2009年4月1日,该基金会拥有资产275亿美元. 财报显示,在2008年,该基金会捐款总额28亿美元,较2007年20.1亿美元有所增加,其中捐款中的约2/3给予了全球医疗

盖茨基金会“探索大挑战”第五轮申请启动

本报讯 (记者赵凤华)盖茨基金会自美国西部时间2010年3月25日起开始接受"探索大挑战"项目(Grand Challenge Explorations)第五轮的申请.该项目面向全球资助大胆而非传统性的研究计划,旨在探索和发现解决全球健康问题的新方法.本轮申请的截止日期为美国西部时间5月19日中午12点. 总金额达1亿美元的"探索大挑战"启动于2008年,为期5 年,每年两轮.每轮都会针对若干全球健康领域的特定题目征集创新方案.方案一旦入选,即可获得盖茨基金会10万

盖茨基金会1亿美元的“探索大挑战”

"盖茨基金会已经把68万人民币(10万美元)划到我们的账上,如果能在采集数据的基础上提出假说,也许我们会申请基金会第二轮100万美元的资助."在近期公布的比尔及梅琳达·盖茨基金会"探索大挑战"计划项目中,复旦大学生物医学研究院双聘首席研究员高谦教授和他的两个学生提出的"小RNA引入结核病研究",从4000个来自全球100多个国家提交的申请项目中脱颖而出.在104项入选项目中,这是中国大陆唯一获得资助的项目.为此,<第一财经日报>专访了

盖茨基金会全球征集健康领域创新方案

新华网北京4月4日电(记者吴晶)记者日前在此间获悉,由比尔及梅琳达·盖茨基金会发起的"探索大挑战"项目第5轮申请已经启动,包括中国在内的全球研究人员可凭借健康领域的创新方案,竞争10万美元的资金支持. 据了解,总金额达1亿美元的"探索大挑战"项目由比尔及梅琳达·盖茨基金会于2008年发起,为期5年,每年两轮,每轮都会针对若干全球健康领域的特定题目征集创新方案.方案一旦入选,即可获得盖茨基金会10万美元的资金支持. 本轮申请将针对以下4大主题征集创新申请书:一.低成本