数据挖掘在医学上的应用

本篇将再多讲一讲数据挖掘在医学上的应用,希望能对感兴趣的朋友有所启发,也供从事其他行业数据挖掘应用的同仁参考。

数据挖掘,又称知识发现(KDD),是从大量的数据中抽取潜在的、有价值的知识的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中未被发现的知识。例如,数据挖掘可直接挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维实验室指标变量的异常等等。再如,在科研设计中利用聚类分析,我们可以对数据进行科学分组,通过考察多因素的不同影响权重,可以帮助确定析因分析或嵌套分析等不同的科研设计等等。数据挖掘在医学中应用非常广泛,它必然为医学临床和科学研究提供传统方法不能企及的又一种前沿技术手段。

国外数据挖掘在医学应用上的案例

数据挖掘在国外各行各业得到广泛的应用,医学领域也不例外,很多数据挖掘技术被成功应用到医学临床和科研方面,下面就列举几个简单的案例。

1. 聚类分析在医学上的应用

糖尿病是世界上一种常见的疾病,超过18万美国人患有糖尿病,另有16万人糖尿病处于糖尿病前期。糖尿病的临床诊断往往是从身体症状和化验值异常着手的。有些异常指标包括身体质量指数( BMI ),血压( BP )指数等。利用聚类分析工具可以分析患者的疾病诊断数据,以进行探索性的数据分析,并考察产生的聚类结果的意义。至于糖尿病患者的数据,聚类分析工具试图按照年龄、种族、性别、体重指数和BP指数等产生聚类模式,并将数据划分到相应的自然组群中。

使用聚类分析工具探索性地分析糖尿病患者的基本指标数据,通过良好的划分类均值来产生聚类。本案例中,对于已有的3个不同的数据集进行聚类分析,产生的聚类数在5到8之间,每个聚类中的病人数量有多有少,运算聚类所消耗的时间大约在5秒钟到4分钟之间。

通过聚类分析,专家们在所有3个数据集中共得到4种类型的患者:

·患者为肥胖(体重指数> 56 ),但血压正常;
·患者基本指标(BMI,BP)是正常的 ;
·患者血压在正常范围内,但体重指标异常 ;
·患者基本指数(BMI,BP)异常 ;

以上4种糖尿病的聚类结果揭示了糖尿病患者典型的四个分型,在临床上具有重要意义。

2. 关联规则分析在医学上的应用

关联规则是一个发现医疗数据中隐藏关联模型的有前途的技术。通常,关联规则在医疗数据中挖掘出大量的规则,规则数量不仅相当大,而且其中大部分规则在医学上是无关紧要的。对于有用的一些规则,医学专家寻找的速度很慢,而且发现了规则以后解释起来也很困难。在这项工作中,我们引入搜索约束,以只发现在医学上有意义的关联规则,并使规则搜索更有效。

例如,应用关联规则分析发现心脏灌注测量和病人危险因素与四个特殊的动脉狭窄程度紧密相关。我们通常用关联规则的支持度、置信度、以及LIFT指标来评价其在医学上的意义,如图一所示。

3. 预测分析在医学上的应用

前列腺癌检查可早期发现癌症,但不是所有的病人都能受益于后继的治疗。因此,辨别出哪些病人最有可能患有侵入性癌症,将大大减少前列腺活检试验。我们收集了1,563例接受了前列腺活检的病人数据,采集10微克/毫升或更少的血清PSA数据,用预测模型对侵入性前列腺癌进行分析。用随机选取的70%的数据对预测模型进行训练,其余30%的数据用于对预测模型进行测试。在1,563例病例中,有406人患有癌症(26.1%),其中130人患有侵入性前列腺癌(8.3%)。预测模型创建了如下侵入性前列腺癌风险组规则:

1. PSAD大于0.165ng/ml/cc。

2. PSAD大于0.058 ng/ml/cc且小于0.165 ng/ml/cc , 年龄大于 57.5 岁且前列腺量大于22.7 cc。

预测模型经测试数据验证,模型对侵入性前列腺癌的敏感度为91.5% ,特异性为33.5%。在测试数据中,当PSAD 是0.058 ng/ml/cc 或更少时,侵入性前列腺癌的发病率是1.1%。因此,预测模型可以有效地识别侵入性前列腺癌风险组。当单一的高度前列腺癌诊断将导致后继的治疗时,预测模型可以减少33.5%的不必要的活检试验。

国外数据挖掘在医学上的应用

数据挖掘的很多理论和技术源自欧美国家,这些国家开展数据挖掘技术的研究和应用比较早,因此也有长年的数据挖掘的技术积累和经验积累。欧美国家对数据挖掘技术研发的投入比较大,不仅投入大量的资金,而且还配备了阵容强大的研发团队。这些国家对数据挖掘技术的应用意识比较高,因此他们对数据挖掘技术的研究热情较高,将最新技术应用于科学和商业的需求比较迫切,因此有大量的成熟的、应用稳定可靠的数据挖掘实际应用案例。由于他们比较早地应用前沿智能信息技术开展健康与医学方面的研究,现在无论从数据挖掘研究和应用的深度和广度上都走在了世界前列,并且很多科研成果已经转化为有形的技术与产品,直接得到了广泛的应用,并产生了显著的社会效益与经济效益。例如,数据挖掘在在医学应用于如下几个方面。

1、疾病和疾病风险的预测

通过对医学大数据的挖掘、分析,并应用智能决策技术,对常见疾病如心绞痛、心肌梗死、脑血管疾病、糖尿病、高血压病、肿瘤、哮喘病、结缔组织病等疾病发生几率的预测和疾病风险的预测,预测遗传性疾病和多发性多因素疾病,有重大的临床意义和广泛的社会效益。如图二所示,应用数据挖掘技术对不稳定心绞痛病人进行探索性分析。
2、人群健康、生命质量的预测

现代人要应付快节奏的学习、工作和生活,而且要处理好各种错综复杂的社会人际关系。面对竞争和挑战,人们的生理和心理都不断在衰弱、老化和病变。最新流行疾病调查显示,某些城市人口甚至有70%的人群处于亚健康状态,而且亚健康人群、疾病人群还在增加。通过对大量医学数据的挖掘分析和应用智能决策技术,不仅可以发现各种健康的危险因素和相关性,并可进行个体化预测,而且基于相关的挖掘成果可建立的一套完善、周密和个性化的健康管理系统,帮助健康人群及亚健康人群建立有序、健康的生活方式,降低风险状态,远离疾病;并可帮助对亚健康人群对疾病早发现、早预防、早诊断、早治疗、早手术,提高生存率、降低致残率和病死率、提高生命的质量。如图三所示,应用数据挖掘的预测模型对“体重超重且血脂并不异常”的体检人群进行血红蛋白指标的预测分析。

3、医疗上各种缺陷发生几率的预测

通过对大量医学数据的挖掘分析,以及应用智能决策技术,可以揭示发生医疗缺陷的原因、趋向、相关因素,以便制定科学的管理,减少、甚至杜绝医疗缺陷和纠纷。例如,加拿大安大略省癌症防治中心通过研发、实施安大略省预防医学与癌症防治体系,对全省的肿瘤大数据进行数据挖掘,开展病人安全与事故的预防,即利用数据挖掘方法揭示临床事故的趋势,研究和辨别引起各种事故的关键因素,指导预防措施。

4、降低医疗费用,优化医疗资源

通过对医学大数据的挖掘,并应用智能决策技术还能够大幅度地降低医疗费用。基于大量医学数据分析的基础上进行科学的健康管理,可使医疗费用大幅下降,医疗费用可降少到原来的10%。正如美国密执安大学健康管理研究中心主任Dee.W.Edington博士提出的90%和10%的论断,即健康管理对于任何企业及个人都有这样一个秘密,即90%和10%。具体地说,就是90%的个人和企业通过健康管理后,医疗费用降到原来的10%;10%的个人和企业未做健康管理,医疗费用比原来上升90%。因此,数据挖掘在医学上的应用具有显著的经济效益。通过对医学大数据的挖掘与应用,可清楚了解疾病发生的几率和临床上预防和治疗的重点,可以优化现有的设备和人才,明确引进人才和新技术的方向,促进医疗的更新和建设,调整医疗布局,优化医疗资源,正确进行医疗决策。

国内数据挖掘在医学上的应用

数据挖掘的应用在中国得到了越来越多的重视与越来越广泛的认可,我们可以预言,数据挖掘的应用必将在各行各业上得到普及!

总的来说,在中国,数据挖掘在医学上得到了很多的尝试,人们在不断地探索和进步。我们在应用数据挖掘技术研究健康与疾病的领域中尚属摸索阶段,与业界领先的一些国家存在着一定的差距,主要体现在以下几个方面:

1、从数据挖掘的理论和技术上看,我们的很多认识和意识还是比较传统和陈旧的。很多人对数据挖掘的理论和技术的认识,还只是停留在几个常用的技术和算法上面,把数据挖掘认识得比较狭隘。实际上,数据挖掘发展到今天,虽然还只是初级阶段,但数据挖掘的内涵和外延已经较以前有了相当的拓展,数据挖掘不再是大家认识的常用的几个技术和算法,而是一切可以应用的用于发现大数据中隐藏规律的技术和手段。既然认识不足、意识不到,那必将影响到数据挖掘的研究与应用的效果,这是我们首要需要改进的。

2、从数据挖掘的研发与应用的人员结构上看,我们的很多数数据挖掘的从业人员大多是来自大专院校的老师、或医疗研究机构的技术人员、或其他IT技术人员,大多数人不是系统地从事医学数据挖掘的专业研究与应用,很难了解世界上先进的数据挖掘的完整体系和系统应用方法,甚至很多人还限于对某些传统算法的摸索,导致数据挖掘技术的研究和应用的起点不高。尤其在数据挖掘的应用层面,数据挖掘是个大知识的汇集区与融通体,它不仅需要对数据挖掘算法有深入掌握,还需要对大数据技术有深刻了解,包括数据库技术、数据建模技术、数据整合技术、超大规模数据优化技术等等,当然还需要对医学专业知识的深入了解。因此,做好数据挖掘在医学上的应用,应该需要复合型的人才,他们应是数学专家、信息专家和医学专家三位一体的人员或三位一体高度集成的团队。

3、从数据挖掘的应用经验上看,国内的很多从业人员没有长年的技术积累,更没有成熟的科研应用和医学应用经验,所以数据挖掘的应用大多仅限于某一局部的探讨性应用,鲜有成熟稳定的实际应用案例。

但是,我们坚信,只要我们知己知彼,博采众长,勇于探索、持之以恒,我们必将能够在数据挖掘应用与医学的事业上取得长足进步!

数据挖掘在医学上的应用需求

医学是一门知识体系庞大、复杂的学科,有太多的新知识、新规律有待人们去挖掘。数据挖掘作为一种主动式发现工具,在医学临床和科研中具有广泛用途。例如,

1、对体检人的医学数据和病人的医学数据,应用数据挖掘技术探索医学的潜在规律,研究各种人体指标在健康中的权重,以及在不同人群中的分布。

2、应用数据挖掘技术研究人体生理指标之间的关联,更深入的了解人体生理各个指标的综合意义,探索多个人体生理数据的内在关系以及这种关系健康的关系,可发现综合因素对健康的影响,从而探究出健康的原因。

3、通过健康体检数据和病人数据的挖掘分析,发现如何综合判别健康状态,分析导致疾病的影响因素,建立评估模型来预测危险度,并进一步建立疾病的预测模型等。

尤其是在医学科研方面,数据挖掘大有用武之地。我们在大量的医学科研支持与服务项目中,深刻体会了科研者面临的困境、以及他们的需求与寻求的帮助。例如,许多医学科研工作者时常感到科研思路枯竭,并为缺乏一个新颖的科研命题而苦恼。因为,科研的关键点和难点正是科研创新。有的医学家在使用精当、严谨的统计学进行科研分析方面感觉力不从心,统计学的应用成为科研工作的一个瓶颈。还有的学者感觉在学术上很难有所突破,他们希望提升科研成果的水平和档次。以上这些,都可以应用数据挖掘的技术和方法在科研中帮助他们的工作。

另一方面,医学工作的领导们也希望本单位的科研工作能蒸蒸日上。但事实上,领导们时常为本单位低落的科研热情和淡漠的学术氛围而感到无可奈何,为改变上述状况缺乏有效的方法和手段,总感到力不从心,为每年科研工作进展不利而心急如焚,为本单位科研成果在质和量上的落后局面而感到如若针毡。而要改变这种状况,一方面需要在科研人才上狠下功夫,另一方面需要在科研的技术和手段方面大力改进。科研人才的改进是在现有的人力、物力的条件下很难在短时间有显著成效的,科研技术和方法的提升相对来说稍好一些,而数据挖掘技术的应用正是改进科研技术的一种方法。

以数据挖掘为核心的智能医学科研工具

为了提升医学科研方法,提高医学科研的数量和质量,我们借鉴了国外的相关技术和经验,提出并研发了以数据挖掘为核心的智能医学科研系统。我们为医学科研提供了一整套方案,搭建了一个完整的智能化科研平台,从日积月累的大量临床数据中精心提炼所需的科研资料,全方位地提供智能化的科研工具,多、快、好、省地全面提升科研工作。

具体来讲,在我们的智能医学科研系统中,将最新应用数学、计算科学和智能计算等多种学科应用于医学科研,借鉴了国外的智能医学科研技术和经验,将我们在北美多年的成功经验和业界领先的技术相结合,并融合了中国医学专家的智慧,为中国医学用户量身打造的高端智能科研平台。智能医学科研系统是应用医院现有的电子化医学数据(HIS/LIS/PACS/电子病例/体检系统等)以及建设各医学专科数据库,开展局网在线共享式的多课题医学科研,提供智能化的工具使医学科研工作新颖、科学、严谨、高效、低成本,可望全面提升大型医院和科研单位的整体科研水平。如图四,智能医学科研系统的智能统计分析界面。

智能医学科研系统具有如下特点:

· 以数据挖掘技术为核心的智能分析系统可以直接挖掘医学新知识,帮助科研者加速取得科研成果,甚至重大科研发现。

· 运用多种数据挖掘技术探索数据规律,为科研设计提供科学依据,为科研命题指明方向,保证了科研的成功率。

· 直接多课题交叉重复利用积累的现有医学数据,使科研成本大大降低,使利用节省下的科研经费再争取更多科研成果。

· 强大易用的样本筛选系统,使科研数据的收集高效准确,能满足科研数据的严格要求。全在线科研平台提供科研全过程的一揽子工具,省去了繁琐复杂的人工数据处理。

· 基于经典科研设计的智能式科研统计流程,使科研者不必因设计失误或误用统计方法而使科研功亏一篑。系统内嵌的统计算法自动运算结果,使科研者摆脱复杂的专用统计软件烦恼。

实践证明,医院应用智能医学科研系统,可获得显著的工作效益,使得医院的科研和临床工作得到良性发展。例如,医院的整体科研能力加强了,科研水平得到了提高,科研成果和论文数量和质量提高了,发表在国家级、国际级的论文和成果增加了,科研的影响指数也相应提升了,同时,获取更多的、更重大的国家级、省市级的课题的机会也更多了。总之,整体科研的提升使医院的学术权威性得到了提高,具有更广泛的社会的影响度,医院的软实力得到增强,同类医疗市场的竞争力加强了,相应地也提高了医院的经济效益。

当然,大力提升科研技术和方法是提高科研工作效果的一个必然手段,但更重要的还是在于发挥科研人员的主观能动性,以数据挖掘为核心的智能医学科研工具仅仅是一个好的工具而已。如果科研人员对于科研创新没有动力、缺乏积极性、或者急功急利、或者搞伪科研,甚至由于单位内部人事的复杂而争斗,即使建设了再好的、再先进的科研工具,也没人能利用它,科研工作的真正提高也只能是无稽之谈!

作者:

Hong Song Lin(洪松林) 福安易数据技术(天津)有限公司(F&E DATA TECHNOLOGY CORP. )创始人,外国专家局引智技术专家,加拿大OCP认证专家,有20年智能计算(数据仓库、商务智能及数据挖掘)方面的研究、设计、开发和培训经验。掌握北美先进的项目经验,曾在加拿大安大略省卫生部(OMH)、蒙特利尔银行(BMO)、加拿大研科电讯公司(TELUS )、安省高教委(OCAS)等大型机构参与多个大型智能计算项目。近年来在国内主持多个智能计算产品的总体设计和研发工作,将北美的智能计算技术及业务经验与中国的专业需求和数据环境有效地结合起来,开发了以数据仓库、数据挖掘和数据统计为技术核心的智能数据分析产品,国内首创,并在北京、天津等地得到成功应用。

另外,作者著有《数据挖掘技术与工程实践》一书。

(责任编辑:mengyishan)

时间: 2024-09-22 03:38:19

数据挖掘在医学上的应用的相关文章

“牛奶疑似中毒”是因乳糖不耐受?专家称医学上讲不通

本报讯 陕西榆林市日前出现200多名学生饮用统一配送的学生奶后出现发烧.肚痛.腹泻等症状.事件发生后,经官方检测,饮用奶及学生呕吐物.粪便中未检出致病菌.如何解释学生发病的原因呢?牛奶供应商援引乳品行业业内人士说法,称孩子发生了乳糖不耐受.对此记者昨天采访了北京两家大医院营养科专家,他们均表示,人体突然出现乳糖不耐受,医学上讲不通. 朝阳医院营养科主任贾凯说,人体通常在两种情况下会出现乳糖不耐受症状,一个是从小未接触过牛奶的人,"像我,从小不喝牛奶,喝一回拉一回".还有就是很长时间没有

大数据与数据挖掘的相对绝对关系

泄密者爱德华·斯诺登(Edward Snowden)还在寻求容身之所的时候,美国http://www.aliyun.com/zixun/aggregation/1727.html">国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒. 奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯. 数据不是信息,而是有待理解的原材料.但有一件事是确定无疑的:当NSA为了从其海量数据中"挖掘"出信息,耗资数十亿改

数据挖掘与数据化运营实战

大数据技术丛书 数据挖掘与数据化运营实战:思路.方法.技巧与应用 卢辉 著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路.方法.技巧与应用 / 卢辉著.-北京:机械工业出版社,2013.6 (大数据技术丛书) ISBN 978-7-111-42650-9 I. 数- II. 卢- III. 数据采集 IV. TP274 中国版本图书馆CIP数据核字(2013)第111479号 版权所有·侵权必究 封底无防伪标均为盗版 本书法律顾问 北京市展达律师事务所     本书是目前有关数据挖

唇枪舌战,7位顶级专家激辩“AI + 医疗”(上)

近两年,医疗AI领域可谓是热闹非凡.IT界人士和医生都在积极推动AI在医疗行业的落地应用.新的玩家和产品方案层出不穷,但真正能走向临床应用的却少之又少.原因之一就在于,医生和工程人员之间缺少足够的合作与信任. 因此,日前在成都召开的图像计算与数字医学国际研讨会(ISICDM2017),430多位来自信息科学(含计算机与电子工程等学科).数学与医学等领域的专家学者与临床医生聚首成都,围绕人工智能+医疗.医学图像分析等话题展开了深入的交流与探讨. 作为本次大会的独家媒体,雷锋网对多位专家进行专访,并

数据挖掘与数据化运营实战.导读

 本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供"菜单化"实战锦囊的著作.作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的"非技术"语言和大量活泼生动的案例,围绕数据分析挖掘中的思路.方法.技巧与应用,全方位整理.总结.分享,帮助读者深刻领会和掌握"以业

《Python数据挖掘:概念、方法与实践》关联规则挖掘

本节书摘来自华章出版社<SAFe 4.0参考指南:精益软件与系统工程的规模化敏捷框架>一书中的第1章,第节,作者[美] 梅甘·斯夸尔(Megan Squire)更多章节内容可以访问"华章计算机"公众号查看. 关联规则挖掘 在数据挖掘工具箱中,计量某个模式的频率是一项关键任务.在某些情况下,较频繁出现的模式可能最终成为更加重要的模式.如果我们可以发现经常同时出现的两个或者三个项目,就更为有趣了. 在本章中,我们开始研究频繁项集,然后将其扩展为称作关联规则的一类模式.我们将介绍

守护生命之门,为朔医学大数据领航全球基因精准医疗

2016年,全球癌症领域顶级杂志--<CA:临床医师癌症杂志>发布相关数据,2015年中国癌症总发病429.16万例,总死亡281.42万例,肺癌和胃癌位居全国癌症发病及死亡的前两位.更令人惊悚的数据是,约22%的全球新发癌症病例出现在中国,27%的癌症死亡病例在中国. 对于癌症,人们常常谈虎色变,甚至对它的治疗不抱希望.而现在,这种情况正在发生变化,随着基因研究在临床医学上的应用,以及大数据的推广,现代医学不仅能精准预测疾病的罹患率,还能预测治疗结果,筛选出最合适的治疗方式.为朔医学大数据(

做好数据挖掘模型的9条经验总结

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识. 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式.也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意.20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者成功运用和遵循. 虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为

《Python数据挖掘:概念、方法与实践》——2.1节什么是频繁项集

2.1 什么是频繁项集寻找频繁项集是一种计数活动.但是和从生成数据集中观测到的项目的简单计数(今天我们卖出了80个胡萝卜和100个马铃薯)相比,寻找频繁项集稍有不同.确切地说,为了找出频繁项集,我们要搜索较大的组中共同出现的项集.有时候可以把这些较大的组视为超市交易或者购物篮,整个活动有时候称为市场篮子分析.我们仍然采用超市的类比,在这些篮子中同时出现的物品有时候被视为在超市中购买的产品组合.例如,已知一组超市交易或者篮子,我们可能对篮子中{胡萝卜,马铃薯}的组合是否比{黄瓜.柠檬}的组合更频繁