哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用

雷锋网(公众号:雷锋网)消息,近日,由HC3i中国数字医疗网、中关村移动互联网产业联盟移动医疗专委会主办的《2017中美智能医疗大数据峰会》在北京召开,众多专家出席探讨了智能医疗大数据存在的问题。

其中哥伦比亚大学医疗信息学系副教授翁春华以“云计算和大数据带来了很好的机会,但拥抱的同时也应该知道数据可能存在的局限性”开始了她的演讲,她指出医疗数据现状令人担忧。

据翁春华副教授介绍,医疗大数据存在的问题有数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中等。

以下是其演讲内容,雷锋网做了精简编辑。

数据不正确

医院常用的疾病分类标准是ICD9/10,诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的,所以真正有意义的深度信息和表型信息应该来自于文本或者是其它更有意义的数据类型。另外,ICD9/10有漏诊和过渡诊断的问题。

如果生成的数据是医生特别忙的时候,他们可能没有时间把正确的代码找出来,只是找几个特别有用的或可以代表病人疾病的数据,漏掉其它非主要的疾病。如果诊断信息不是医生生成,而是专门人员生成,他们可能会漏掉一些经济价值不高的信息。

我们有一次做研究寻找高血压病人,让他们参与有关高血压的临床测试,结果我们发现所有病人都没有关于高血压的ICD9/10数据,医生说因为所有人都有高血压,所以懒得把信息放在病例里,病人患其它疾病时才会把信息放在病例里。可以看到,电子病例的很多信息是否记录是基于记录人的需要,之后信息会被用来重用或做其他研究分析,如果不知道当初记录信息时的筛选标准,有可能产生误导。

还有就是过度诊断的问题,患者的情况不断变化,有可能以前患有的病现在已经治好了,但这些信息还继续留在那里,当你拿到电子病例的时候,可能以为这个病人还患有这种病。如果基于这些信息分析的话,有可能会被误导。

数据不完整

衡量数据是否完整有4个维度,分别是:有多少医疗事件会被记录;数据类型有多少;同一数据类型是否有完整的数据收集结果;是否有具体的数据值。

长老医院有450万病人的电子病历记录,可以说数据是非常庞大的,但如果用这四个维度衡量一下,结果让人大吃一惊。

我们的实验中纳入了390万个病人信息,只有一半左右的病例满足其中一种完整性标准;1/4满足更严格的数据完整性要求,比如其文本信息和来访时间记录吻合或有多个来访记录等;仅有小部分有充分信息或有研究价值;只有0.6%的病历完全符合4种数据完整性定义。

在此之前,我们乐观地认为有海量数据,可以做很多事情。但分析之后,我们才知道在用数据之前衡量一下数据能做什么非常重要。

数据不可用

数据的重复性严重影响数据挖掘的算法结果解释。病人疾病进展记录中54%是重复的,出院记录的30.7%和登记记录完全一样。电子病例中有很多没有价值、不产生新信息的数据,这些数据分析影响特别大,带来偏见和噪音,降低数据的可用价值,其实其中很多信息根本没用。大家都继续粘贴和复制,更加加大了数据的不一致性。如果需要使用要寻找真实的信息和信息来源,但这个过程很困难。如果欲根据其中数据概念的频率了解概念和疾病的相关性,不能直接用,因为频率受重复性的影响,很多概念是通过拷贝生成的。

更多关于雷锋网的人工智能升级传统行业文章,请关注雷锋网AI商业化垂直微信公众号:AI掘金志(ID:HealthAI)


本文作者:张利

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-30 11:07:06

哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用的相关文章

康奈尔大学王飞博士:AI处理医疗数据面临的8大挑战

雷锋网按:本文转自HC3i中国数字医疗网,作者王飞博士,他是康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问.曾任职于康涅狄格大学以及IBM沃森研究中心.主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用.王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数38. 随着国务院发布新一代人工智能发展规划,"人工智能"这个已经在最近家喻户晓的名词再一步被推向了风口浪尖.对于医疗健康这一与人类息息相关的行业来讲,一

哥伦比亚大学研究发现:出生月份的确会影响健康

研究发现,你出生的月份确实会影响你患病的可能性.研究人员利用软件来寻找出生月份与发病率之间的关系,他们利用算法检测了纽约市医疗数据库之后,发现55种疾病与人们出生的季节之间存在着联系. 这份来自哥伦比亚大学的研究表明,五月份出生的人患病率最低,出生在十月份的人患病率最高.该研究发表在美国医学信息学协会期刊上.研究作者Nicholas Tatonetti表示研究数据能帮助科学家们发现新的疾病影响因素. 早期专注于多动症和哮喘的研究表明出生季节和发病率之间有一定联系,不过后续没有人进行相关的大规模研

CMU副教授马坚:精准基因组数据和智能医疗最新进展

个人简介:马坚,现任美国卡内基梅隆大学(CMU)计算机科学学院副教授.本科毕业于复旦大学计算机系,先后在美国宾夕法尼亚州立大学计算机科学与工程系师从计算生物学先驱 Webb Miller 从事博士研究,在加州大学圣克鲁斯分校的美国科学院院士 David Haussler 实验室进行博士后研究.2009年至2015年在伊利诺伊大学香槟分校任助理教授和副教授(并获终身教授),于2016年1月加入卡内基梅隆大学计算机科学学院,是 CMU 计算机学院计算生物系和机器学习系的 Faculty.他的实验室主

黑客已胜?哥伦比亚大学教授谈计算机安全问题

2009年,哥伦比亚大学计算机科学教授Steven Bellovin说:"任何人--找到解决计算机安全问题灵丹妙药的可能性恰好是零.问题大部分出自有缺陷的代码,造成缺陷的原因各异.也没有单一的解决方案.事实上,我很怀疑会有真正的解决方案:有缺陷的代码是计算机科学最古老的未解难题,我认为这不会改变". 本月出任联邦贸易专署(FTC)首席技术专家的Bellovin,在IT领域服务多年,包括在新泽西州Florham Park的美国电话电报公司(AT&T)实验室从事研究二十余年.他在其

哥伦比亚大学数据科学课程笔记

第一周:什么是数据科学? 课程大纲 Rachel Schutt教授以梳理课程大纲开始,下面是她主要的摘要: 1. 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程. 2. 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿. 3. Rachel主讲几个礼拜的课,然后会有客席讲座. 4. 客座教授的简历跨度非常大,他们的背景也是如此.但他们都是数据科学家. 5. 我们将有丰富的阅读材料:做一名数据科学家的一种能力就是认识到许多还未记录下来的东西. 6. 差不多每两周一次家庭作业

哥伦比亚大学牙科学院使用RFID系统,更好管理牙科器械

进入哥伦比亚大学牙科学院(CDM)时,学生需要购买自己的牙科器械在学校的诊所供患者使用.同时,他们还需要负责确保这些工具不丢失.牙科器械包括反射镜,探头和探针,每个器械的长度都约为6英寸,圆柱形,大多数是钢材质制成.跟踪这些物品对学生和诊所来说来说都是一个很困难的任务.丢失的工具必须进行替换,这对于诊所和学生来说都是笔大花销. 因此,CDM采用了一个RFID系统,用于在临床使用,灭菌及存储过程中跟踪每个器械及其包装.该技术是由牙科器械商LM-Dental提供的,2015年7月投入使用.大多数LM

Practice Fusion:医疗数据大生意

 "医疗行业支离破碎,保险公司毫无创新,想要进入这个领域简直困难重重.世界上最大的企业也手足无措,连谷歌都无法建立一个令人满意的医疗信息系统.医生舍不得花钱,病人更是懒到对自己的健康问题视而不见.你们这些人选择了一条艰难的道路."在2011年9月美国山景城地区举办的一次活动上,电子病历公司Practice Fusion创始人兼CEO莱恩·霍华德(Ryan Howard)面对一群医疗领域的创业家直言不讳地说.   两年后,PracticeFusion在第四轮融资中获得7千万美元,估值已达

医疗数据难获得,人工智能医疗发展遭遇瓶颈期

过去几年间,大量家用血糖仪.血压计.手环等设备已经进入普通人生活,收集了大量数据.而医院也意识到医疗数据的价值,纷纷开始把医疗数据"上云"(存入云存储器中),云计算的能力升级也让以前耗时费力的数据处理变得更容易.而以深度学习为代表的新一代人工智能技术对医疗影像.医疗数据的处理能力也有了很大变化. 人工智能医疗 不过,更完善的医疗数据获取和利用并非一帆风顺,不少医疗机构和医药公司在探索AI+医疗的过程中都走过一些弯路. 目前,AI+医疗最大的问题在于数据的来源和质量,因为中国的医疗数据在

DeepMind 从英国获取医疗数据,大尺度引风波

谷歌旗下的人工智能部门DeepMind最近在英国医疗界引起了不小的风波,风波的焦点是DeepMind与伦敦免费国家医疗服务体系信托(London Royal Free National Health Service Trust)旗下的三家医院所签订的两个协议.在这两个协议中,第一个是在2015年9月签署的.在这个协议下,NHS信托(National Health Service Trust)把超过200万伦敦市民的医疗记录转给了DeepMind.而DeepMind也在今年2月份正式推出DeepM