大数据在医疗卫生领域的应用:减少成本,改善效果

对医疗数据数字化及数据共享的标准化和倡导,改进并降低数据存储成本,并能够在商业硬件上运行,这些都促成了大数据在医疗行业的应用,并以更低的成本获得更好的医疗卫生服务为目标。

应用 大数据 的动力何在

医疗卫生成本拉动了对以 大数据 为驱动的医疗卫生方面的应用需求。在过去的几十年里,美国的医疗卫生支出已经超过了GDP增量,并且超过了任何一个其他发达国家的医疗支出。据经济合作与发展组织(OECD)称,尽管支出很高,但如果以便利性、平等性、质量、效率以及健康人数为指标的话,美国的医疗卫生系统在了11个国家中排名最后(如下图所示)。对医疗数据数字化及数据共享的标准化和倡导,改进并降低数据存储成本,并能够在商业硬件上运行,这些都促成了 大数据 在医疗行业的应用,并以更低的成本获得更好的医疗卫生服务为目标。

  以价值为准的医疗卫生

“平价医疗卫生法案”的一个目标是通过医疗信息技术的有效利用来改进医疗卫生,从而达到以下目的:

提高医疗卫生的质量和协调能力,使成果与现有的专业知识一致。

缩减医疗卫生支出,减少可避免的过度使用。

已改革的支付系统提供支持。

医疗保险公司、老年卫生医疗制度(美国政府向65岁以上的人提供医疗保险)、医疗补助制度(美国政府向贫困者提供医疗保险)正在从收取服务性费用转向以价值为基础、数据为驱动的激励转变。这种激励模式鼓励高质量、高性价比的医疗服务,并且还能展示对电子医疗记录的有效利用。

  医疗卫生数据

医疗卫生行业的数据80%都是非结构化数据,并且数据量还在呈指数式增长。对于这些非结构化数据的获取,比如医疗设备检测结果、医生的记录、实验结果、影像学报告、医用函件、临床数据和财务数据等,是改善病患医疗服务及提高效率的无价资源。

以下是未来可以受益于大数据分析的医疗卫生数据源的例子:

索赔报告:是医疗卫生服务供应商向保险公司提交的文件以获得保险赔偿。《健康保险隐私及责任法》(Health Insurance Portability and Accountability Act,缩写为HIPAA)中最关键的一个要素就是通过鼓励在医疗服务供应商和保险公司之间广泛使用电子文档交换(Electronic Document Interchange,缩写为EDI),建立电子医疗记录方面的国家级行业标准来提高效率。索赔报告交换包括国际疾病分类(International Classification of Diseases,缩写为ICD)诊断码, 治疗方案、日期、供应商ID以及花费金额。

电子健康/医疗记录数据(Electronic Health/Medical Record, 缩写为 EHR或者EMR): 医疗电子记录激励体系在建立之时便是用来鼓励职业人员以及医院采用并展示对已认证的EHR技术的有效应用。EHR能够促进服务供应商和医疗机构之间的数据全面分享。EHR包含医疗卫生服务中所产生的数据,例如诊断结果、治疗方案、处方、实验测试结果及放射诊疗结果。国际医疗卫生领域信息系统指标体系及交换协议(HL7)提供了电子医疗记录数据的交换、整合、共享、撤回等方面的基本标准。

医药研发:临床实验数据、基因数据。

病人行为和情绪数据。

医疗设备数据:家庭或医院的患者传感器数据。

  大数据 在医疗卫生领域的发展趋势

现在有一种趋势是向着循证医学发展,即充分利用所有临床数据并能在临床和高级分析中对这些数据进行因子分解。抓取及收集关于某一个病人的所有信息能够为我们分析医疗服务协调性、分析基于效果的补偿体系、人口健康管理以及病人参与度和其他信息。

  医疗卫生领域大数据应用案例分析

用 大数据分析 工具减少医疗诈骗、浪费和滥用

在美国医疗产业中,因欺诈、浪费和滥用而产生的成本是造成医疗费用节节上升的重要因素,但大数据分析能称为这一现象的变革者。医疗照护和医疗救助中心使用预测分析一年能够杜绝总额超过2.1亿的医疗保险欺诈。基于hadoop大数据平台的基础上,联合保健公司实现了向可预测的建模环境的转变。这个大数据平台能够以系统的、可重复的方式去甄别不正当的索赔申请,并能获得2200%的数据反馈。

辨别诈骗的关键是通过存储和可追溯的记录去分析历史赔偿记录中大量的非结构数据集,并利用机器学习的算法来甄别反常事物及模式。

医疗组织机构可以通过分析病人的纪录和账单来查明异常,例如短期内过度使用医疗服务,病人在不同地方的不同医院受到了医疗服务,或是同一个病人在多家机构得到了相同的处方。

医疗保护和医疗救助中心用预测分析来对某些特定的赔偿或医疗服务供应者进行风险评分,甄别计费模式并发现用传统方法难以查明的反常情况。以规则为基础的模式基本上能自动标示部分赔偿结果异常。而异常分析模式基本上是靠分析反常因素发现问题。预测分析模式是将某一赔偿案例与另外一个已被确认为诈骗的案例进行比较来发现可疑之处。而图表模式一般是依据关系网来分析,它认为一般存疑的医疗服务提供者总是与其他存在欺诈性的收费者保持紧密联系。

通过预测分析提高效果

不少积极的尝试,例如正在加速电子健康记录(Electronic Health Records,EHRs)的有效利用、病人信息的数量和细节,能够通过多种信息源组合、分析各种各样的结构化和非结构化的数据有助于提高诊断病人病状的准确性、根据病状匹配治疗方案以及预测病人患病或再患病的风险。

以电子健康记录(EHR)中的数据为来源的预测模型被应用于早起疾病的检测,并且还降低了一些疾病的死亡率,比如充血性心力衰竭(CHF)和败血症等疾病。降低充血性心力衰竭(Congestive Heart Failure ,CHF)和败血症等疾病的死亡率。CHF在医疗保健支出的占比最大,CHF越早治疗越好,这样能够避免花更多的钱治疗并发症。但是医生常常会忽略它的早期临床表现。来自于佐治亚理工学院的一个机器学习示例表明机器学习算法能够比医生从病人的图表中分析出更多的因素,同时通过增加额外的特征,机器学习算法能够有效提高模型区分CHF患者和非CHF患者的能力。

通过分析包含更多病患数据的大样本数据,预测模型和机器学习能发现之前未能发现的细微差别和模式。Optum实验室从EHRs中搜集30万病人的信息,为预测分析工具创建了一个庞大的数据库。这些工具将会帮助医生做出基于大数据信息的决策,从而改善病人的治疗。

  实时监控病情

医疗机构正在通过持续性监控病人生命特征来提供更加具有主动性的治疗,各种监控数据能进行实时分析并及时发送警告给医疗服务提供者以便他们能及时了解病人病情的变化。通过机器学习算法进行实时分析能够帮助医生做出挽救性命的决策并且对一些病症进行有效干预。

  医疗 大数据架构 :我们应该怎么做?规模化后又该如何做?

我们需要收集数据、处理数据、存储数据,并最终将数据用于分析,机器学习和数据表盘。

  数据撷取:NFS

通过网络文件系统(NFS)协议可远程访问网络共享磁盘。启用NFS服务器后,可与客户共享目录和文件,让用户和程序像访问存储在本地的文件一样访问远程系统上的文件。

与只允许集群数据导入或批量导入的其它版本的Hadoop不同,MapR允许通过NFS直接挂载群集本身,让您的应用程序直接读取、写入数据。通过POSIX语义,该MapR文件系统允许直接修改文件和多个并发读取写入操作。挂装NFS的集群可实现对数据源的简单数据撷取,比如说从其他应用标准Linux命令、实用程序、应用程序和脚本的设备上撷取文件、图片等。

通过使用NFS可从MapR集群移出移入数据至更昂贵的存储空间。例如,您可以将处理过的热数据转移到关系数据库或数据仓库,您也可以将冷数据转移到成本更低的Hadoop存储中。

流数据撷取:KAFKA API

由于越来越多的医疗方案需要实时分析和动态数据,使用事件流撷取数据到系统中则将成为关键。 MapR流是一种新型的分布式通信系统,通过Apache Kafka 0.9 API可使得生产者和消费者之间实现实时交流事件动态。主题是信息的逻辑化集合,可依据其将事件分门别类。

主题分区域放置。主题将并行数据负载传遍多个服务器,这保证了更高的吞吐量和可扩展性。

读取后消息并不会从主题中删除,而且主题可以有多个不同的消费者,这使得抱有不同目的不同消费者处理可以处理同一消息。

  批量处理

当快速相应时间不是核心要素时,就可采用数据批量处理。批量处理用于处理一段时间积累的数据集。例如白天收集EDI声明,晚上打包至文件夹中准备用于处理。

Apache Hive是一个用于数据仓储的开源Hadoop应用程序。它提供了一个便捷的方式在大量的非结构化数据之上建立框架,然后对这些数据进行类似SQL查询操作的批处理程序。

Apache的Spark是下一代分布式并行处理框架,可为机器学习、图形处理、SQL等提供一套丰富的API。 对于迭代算法,Spark处理速度要比MapReduce更快,因为Apache尽量将相关信息储存在储存器中,而MapReduce则更多地直接从盘中读取和写入。

  流式数据处理

Spark Streaming是基于Spark的实时计算框架,其将流式计算分解成一系列短小的批处理作业。因此,你可以像编写批处理作业一样编写流作业。当然,处理大规模流式数据,除了Spark Streaming, Apache Flink 和 Apache Storm也是不错的选择。

  NOSQL数据库存储

存储海量数据,我们需要一个既能满足快速写入又能满足大批量录入的数据库。MapR-DB应运而生,MapR-DB就是为了规模化写入而设计,因为事实上同时读取的数据也存储在一起。

有了MapR-DB, 数据可以通过关键域在数据集群之间完成自动分配,每个服务器对应一个子数据集的源。如果按行分组数据,无疑会加快数据读写速度。

  MapR-DB有两个API:

JSON API——用于存储文件模型

HBase API——用于列数据模型(尤其是时间序列数据)

  提供数据

终端应用,例如数据表盘、商业智能工具以及其他的应用,需要使用已处理好的数据。同时,这些数据可以再存回数据库,方便日后使用。

Apache Drill 支持无模式SQL查询引擎,因此能够实现海量数据的自助式数据探索。能够实现海量数据自助服务SQL查询。Drill有如下优点:

Drill支持多种数据读取

Drill进行了交互式应用方面的优化,可以在秒级别的时间查询PB级别数据及万亿条记录

数据分析师在使用Drill的时候,可以搭配一些例如Tableau的工具,就能够快速实现数据可视化。

以上我们讨论的架构组建,都能与mapr 融合数据平台在同一数据集群上运行。当然,整合Hadoop、Spark、实时数据库、全球性事件流及大规模企业级存储,还会带来以下好处:

维护一个数据集群,意味着更少的系统架构部署和管理,对系统安全、稳定性和性能方面的监控也减少了。这样极大程度上降低了硬件和运营成本。

生产者和消费者在同一集群,将会降低因在不同集群和应用程序间复制或移动数据而造成的延迟。

  案例架构

Valence Health使用MapR融合数据平台来创建作为该公司主要数据储存地的数据湖。该公司产生3000条内部数据记录,涵盖45种不同类型,包括实验室测试数据、病人生命体征、处方、药品津贴、索赔和支出等,其中索赔来自医生和医院两方面。在过去,如果我们要从2000万条实验室记录中检索一条记录,将花费22个小时。而MapR只需要20分钟,并且其所消耗的硬件资源还会大大减少。

国立卫生研究院为了整合各研究院的数据集,也创建了一个数据湖。这样,所有的数据都集中在一个地方,更加方便数据共享和处理。

UnitedHealthcare IT部门采用Hadoop框架创建了一个平台。该平台上有各种工具,能够

分析诸如索赔、处方、治疗计划参与者、合同服务提供者及相关的索赔审议结果等信息。

医疗卫生服务的记录系统流

Liaison科技提出一个基于云的方案,帮助组织机构整合、管理、保护跨公司数据。针对医疗服务和生命科学产业,他们提供了一个纵向解决方案,该方案面临两个难题:符合HIPAA规定需要以及数据格式及呈现方式的推广。针对第一个问题,MapR将该规定的数据谱系流式化,数据流成为了一个记录系统——一个无穷尽而又不可随意更改的数据交换记录日志。

针对后一问题,我们通过一个例子来了解。一个病人的记录有可能被不同的用户,例如制药公司、医院、诊所、医生等以文件或图表形式呈现或以检索等方式使用。通过把即时数据变化通过数据流的形式处理成MapR-DB HBase、MapR-DB JSON文件、图表,并录入搜索数据库中。此外,通过应用MapR数据整合平台的服务,Liaison可以保护所有的数据,避免冗余数据和安全需求累积,而这是对备选方案的基本要求。

基因处理

Novartis团队采用Hadoop 和Apache Spark打造了一个工作流系统。这个系统为NGS(Next Generation Sequencing)研究整合、处理、分析各种类型的数据。

随着科技的发展,普通硬件无论是存储性能还是快速处理大数据的能力都大幅提升。随着通过捕获、共享、存储大量电子医疗服务数据和交易等技术的成熟,医疗服务行业正逐步变革,不断提高产出并降低花销。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-10-02 02:38:06

大数据在医疗卫生领域的应用:减少成本,改善效果的相关文章

汇享大数据 创造医疗卫生新价值

本文讲的是汇享大数据 创造医疗卫生新价值,据IDC预测,中国的大数据市场在2012-2016年间将增长5倍,政府.银行.医疗卫生.电信等行业将在其中占据最多的份额,大数据带来的巨大商业价值已经不言自明.然而,其价值的实现取决于一个重要的前提条件:只有在取得准确.全面.及时的高质量数据的基础上,才能借由有效的分析手段,呈现出数据背后的商机或警示.否则,再好的商业模式都只是基础薄弱的空中楼阁. 正是基于这样的理性思考,中国卫生医疗行业对于大数据的持续升温始终持冷静.审慎的态度.据HIT专家网报道,国

拥抱大数据 加快医疗信息化建设

当前我们正处于一个数据爆炸性增长的大数据时代,各类信息系统在医疗卫生机构的广泛应用以及医疗设备和仪器的逐步数字化使得医院积累了更多的数据资源,这些数据资源是非常宝贵的医疗卫生信息,对于疾病的诊断.治疗.诊疗费用的控制等都是非常有价值的.如何在大数据时代做好医疗卫生信息化建设,是值得我们思考的问题. 一.大数据时代对医疗信息化建设新要求 据估计,中国一个中等城市(100万人口)50年所积累的医疗数据量就会达到10pb级别.随着我国医疗信息化建设加快,医疗卫生数据量爆发式增长,医疗卫生领域已迎来了自

大数据在医疗领域的七大应用

大数据的意义在于提供"大见解":从不同来源收集信息,然后分析信息,以揭示用其他方法发现不了的趋势.在利用大数据发掘价值的所有行业中,医疗行业有可能实现最大的回报.凭借 大数据 ,医疗服务提供商不仅可以知道如何提高盈利水平和经营效率,还能找到直接增进人类福祉的趋势. 例如,美国疾病控制与预防中心(CDC)一直利用 大数据 对抗埃博拉病毒和其他流行病.CDC的大数据试验项目BioMosaic实时整合人口数据.健康统计数据和人口迁移状况,以便对流行病进行追踪.该机构已成功将BioMosaic

大数据为医疗和科学领域的进步保驾护航

文章讲的是大数据为医疗和科学领域的进步保驾护航,人们很容易产生这样的印象:大数据技术的杀手级应用主要还是针对市场营销和广告领域,特别是像Google,Yahoo以及Facebook这类公司,他们已经研发出了可用于不完全符合关系数据库的超大数据集的工具.其实大数据的先驱们几乎是每天都出现在我们的视野里,他们通过提供具有针对性的广告和预测客户的购买需求来赚取大笔金钱. 在市场营销和广告上的"出色成绩"无疑是极具价值的,而且任何一个有相关业务的人都可以证明这一点.其实我们偶尔也可以退一步考虑

全球医疗卫生领域公共数据开放比较

医疗卫生领域公共数据该如何开放?不同国家因卫生系统组织结构.司法环境.历史和政治环境的不同,开放数据的策略也各具特色.法国卫生部医疗卫生开放数据委员会在比较了全球15个国家医疗卫生领域公共数据开放政策及措施后,选取了其中最具参考性和代表性的5个国家(英国.美国.加拿大.丹麦和新加坡)进行了研究. 研究发现,尽管各国医疗卫生领域公共数据开放各有侧重,但最终目标是一致的,即提高医疗卫生服务的透明度.为病人提供便利服务.鼓励公共和私营卫生机构的创新等. 一.开放数据主要类型 (一)丹麦 从业登记册 该

大数据时代,医疗PACS系统的新需求

大数据时代,医疗卫生数据急剧增长, CT.超声.核磁共振等迅速膨胀的非结构化数据,给PACS系统带来前所未有的压力,对存储空间及数据安全性有着更高的要求.高性能.大容量的存储系统,是PACS系统实现更快的数据调取和存档速度的关键. 作为大数据存储架构提供商,同有贴近大数据时代医疗行业用户实际应用需求,率先推出国内第一款紧耦合双控统一存储系统NetStor iSUM620,颠覆传统统一存储架构,为医疗用户带来焕然一新的使用体验. 紧耦合双控架构 PACS性能直线攀升 PACS系统存放的大量医学图片

康诺云CEO郭辉:大数据在医疗方面的应用

康诺云CEO郭辉在"2013中关村大数据日"上做主题演讲,分析康诺云情况,以及大数据在医疗方面的应用. 郭辉:大家好,我今天来跟大家聊一聊用数据改变健康的问题.一般提到健康就是想到医疗,只有有病的时候才会想到医疗,有疾病才会去医院检查进行治疗.而医学诊断体系是黑白的诊断模式.超过的时候有病,没超过的时候就没有病.可是在生活中的话大部分人存在这种状态,人们从健康到不健康是长期的过程,这个过程不是今天健康明天不健康,不是突然转化,是量变过程. 在讲之前,我可以给大家看一下公益广告,不同的人

大数据为医疗质量提升带来更多可能性

ZDNET至顶网CIO与应用频道 07月11日 评论分析(文/丁慧茹): "现在医院对于当下很流行的大数据技术经常呈现两种极端,要么盲目地趋之若鹜,要么认为离自己还太遥远."这是记者日前采访国内某三甲医院的CIO时听到的一句话. 其实,医院呈现这样的态度,是个很正常的反应.一方面,无论是政策督导还是医院本身的策略,都急切地希望快速提升医疗服务质量,大数据就成了"理所当然"的选择了:另一方面,医院所有努力和一切提升围绕的根本是医疗水平,而医患关系的紧张,又会让医院谨慎

IDF2013:大数据带来医疗行业转折点

文章讲的是IDF2013:大数据带来医疗行业转折点,2013年4月10日消息,2013年英特尔信息技术峰会(IDF 2013)在北京国家会议中心举行,本届IDF主题为"未来,用"芯"体验",宣示英特尔更加以用户体验为核心,立足英特尔架构继续扩大和深化产业合作,全面推动计算技术创新.芯片制造创新.应用体验创新.终端形态创新和云端智能创新,以强大的计算力开启一个全新的个性化体验新时代.来自中国和全球各地的数千名软硬件开发人员.技术管理人员及媒体.分析师将汇聚一堂,体验前