大数据之伤——小数据思维

1980年之前,临床医师们主要依赖“经验”、“直觉”以及“触摸不到的线索”来判断一个发烧了的小孩子到底是由较轻的疾病(如感冒)还是由比较严重的疾病(如急性肺炎或脑膜炎)引起的。换句话说,他们靠直觉来看病。在1980年,一个由研究者组成的小组研究了那些有经验的儿科医生是如何为他们的病人诊断的。他们发现了那些杰出的医师在直觉中参考了“输入信息”,而那些缺乏经验的医师在试图可靠地试用这些“输入信息”时就显得过于主观了。

在随后的研究中,研究人员从精确度和客观性两个方面上加强了他们的系统。在这个系统中,那些正在接受培训的儿科医师能够像有经验的医师那样接触到很多因严重疾病而导致发烧的儿童。事情发生了根本上的变化:直觉的建立被质化和量化地形成了一种形式,并且这种形式可以被那些经验并不丰富的医生所利用。如今,几乎所有正在为发烧儿童看病的医生都在证实这精妙的发现。

如果我们把目标确定为为每位儿童的每次就诊都提供最好的治疗,那么我们需要的就不仅仅是直觉和专业的技能了,因为人无完人。基于证据的医疗方法(EBM)通过把临床研究整合进治疗准则来帮助医师提高治疗水平。然而就普遍意义来说,EBM一般是基于“小数据”的研究——与动辄数十万或数百万">的大数据不同,一个大型的EBM则是包含了数千例病例的系统。在这样的小样本规模系统中输入信息必须被良好地定义和形式化,随之而来的结果便是包含了所有这些信息的治疗准则在解释病人与病人之间的差异时就显得力不从心。因而EBM有时被人们嘲笑为“菜谱式治疗”,医生们只是机械地遵循着这些治疗的“配方”来治病。鸡肉与菠菜对于一些人来说也许是顿美味,但是当我们要为一位素食主义者上菜时又该怎么办呢?

大数据的容量足够用来创造更加个性化的“治疗菜谱”。利用一个容量为5亿人的数据集,你可以为一个体重超重且高胆固醇每天必须服用阿司匹林和立普妥的35岁男人,或者为一个与上述情况完全相同但是体重偏轻的人定制治疗方案。

大数据也可以允许我们通过在粗略的未经处理的数据集中逐条比对来发现微小但是强有力的线索,从而进行分析研究。小数据集中通常不能处理粗糙的原始数据,因为它不能分辨“心梗”与“心肌梗死”的区别,即便他们指的是同样的事情。并且由于在小数据集中只能使用单一的术语,使得我们无法做出确凿的归纳。同时小数据集也无法支持需要识别“心梗”与“心肌梗死”是同一种术语的研究。小数据集同样无法支持我们使用很细节的线索作为输入,因为它们在数据集的发生具有太大的随机性--确凿的归纳是无法从这样的小样本数据集中得到的。

目前有越来越多的争议在讨论大数据是否正在取代直觉在医疗中的地位。无论怎样,大数据仍是我们最大的希望--计算机可以在模仿人类专家直觉方面跟进一步,那时我们就再也不用依赖EBM这样的小数据集了。真正的问题并不是大数据正在威胁医疗中的直觉,而恰恰相反,是在于我能未能做到这一点。我们如今在医疗领域并未过于依赖大数据,因为这的确需要大数据量,而医学研究者们手中并没有真正的大型临床数据集。

建立,维护,标识以及保密临床临床数据集的代价太高昂了。泄露数据集信息的惩罚很重,而建立这样数据集的利益却几乎不存在。即便是政府支持的健康信息流通项目通常也不进行数据统计。取而代之的是,这些系统被用作让登陆者进入一个外部系统,一次只能取回一位患者的数据,并且得到的数据通常是摘要形式的。大数据分析是无法在这样的体系中实现的。

然而,大数据量医疗数据集受到的最大壁垒是医疗信息中盛行的所谓“最佳实践准则”,这一准则已经落后于其他行业一二十年了。医疗信息体系仍在持续强化使用陈旧的数据屏障,而这屏障正是维持“小数据集”研究的基础。在这个体系中,只有通过审核的,标准的,被编辑过的数据才能被接收——这里没有任何粗糙的原始数据!随之产生的数据集便是小数据集,因为屏障式的处理过程是强化数据源的瓶颈,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性,这就如同白面包一样——一个被滤去了谷物最好营养物质的空空的净化盒。如果在大数据中使用了这样的屏障,谷歌和亚马逊就不可能成功,原始的大数据正是他们成功的原因。

除非每个医生都同时拥有无与伦比的直觉,否则计算机就应该用来提供更好的医疗。如果我们在处理过程中摒弃小数据思维,并开始建立真正的大数据,那么大数据在医疗支持中将会发挥更加巨大的作用。

(责任编辑:蒙遗善)

时间: 2024-10-27 06:24:16

大数据之伤——小数据思维的相关文章

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

大数据,小数据,哪道才是你的菜

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:"技术是总是配"套"而来的,但这个"套"有大有小(Technology comes in packages, big and small)". 这个定律用在当下,是非常应景的.因为,我们正步入一个"大数据(big data)"时代,但对于以往的"小数据(small data)&quo

SAS杨玥:大数据变小数据 数据分析层层递进

11月24日,由ZDNet至顶网主办,英特尔协办.VMware和SAS支持的主题为"大数据?政府决策的科学发展观"的第五届政务信息化高峰论坛在昆山举行.多位政务信息化专家.大数据实践精英及IT界意见领袖出席了会议,并在会上就大数据在政务信息化中的实际应用等问题进行了深入交流.其中,SAS政府行业高级经理杨玥从技术和应用各个层面分析数据价值发挥的特点和关键点,并总结出了企业在应对大数据时做好数据分析的要素. 数据分析分为两个阶段 大数据时代既有机遇也有挑战,杨玥认为目前最大的挑战是数据分

大数据另一个方向——大数据变成“小数据”

大数据有两个发展方向.一个是方向大家比较熟悉的"数据收集.分析",借此了解客户需求.明确产品方向等等.我还在人工智能.机器学习等领域做了一些研究,思考怎样把这些先进的技术和数据技术综合在一起,让大数据不仅能帮人做决策,而且能够真正自己做一些简单决策,让人有时间和精力去做更复杂的决定. 另外一个方向是"数据即服务".亚马逊的AWS云计算是"基础设施即服务",Salesforce是"软件即服务".Splunk是做大数据的管理平台,

《大数据、小数据、无数据:网络世界的数据学术》一 2.2 定义与术语

2.2 定义与术语 学术文献.政策声明和大众媒体中到处都充斥着对数据的讨论,它们都尝试定义业内术语.罗森博格(Rosenberg 2013)指出,即使是在科学史和认识论历史中,人们也只是在无意间提及数据(Blair 2010:Daston 1988:Poovey 1998:Porter 1995).其他在科学领域中讨论事实(fact).表示(representation).记录册(inscription)和出版(publication)等含义的基础性作品也很少关注数据本身(Bowker 2005

大数据与小数据:对最新新闻的分析

2014年,我国推出了一个社会信用评分的计划.它可以根据公民的行为,社会行为和在线决策来对公民的信用进行评定.在"社会信用体系建设规划纲要"的文件中,鼓励人们的守信行为,做有益于社会的事情.在这样的新闻中,人们可以看到大数据的潜力和未来.无论是从事流处理业务还是数字内容业务的人,都应该了解大数据背后的动态,以适应环境和潮流. 大数据时代 目前,各个领域的大数据爆炸式增长.人们在网上的所有社交活动和行为都将对塑造社会风气带来影响,这是企业应该更多地了解大数据以及如何提供帮助的众多原因之一

磅:小数据大时代,数据革命迫在眉睫

演讲者:蔡凯龙,注册金融分析师(CFA), 金融风险管理师(FRM), 金融和计算机双硕士,金融博士生,互联网金融专家.现于德意志银行美国战略科技部,点石资产管理公司(DeStone Captial Management)的创始人合伙人兼任投资总监,曾任美国能源公司MXEnergy风控经理,担任休斯顿大学商学院金融系助理教授(Adjunct Professor),出国留学前在厦门开元期货当交易员.   主题概述: (一)小数据的介绍和定义 (二)小数据产生的原因 (1) 大数据对隐私无止境的侵犯

大数据时代的小数据

现在好像人人都爱说"大数据",就像平时我去开会,不是用大数据分析这个,就是用大数据建构那个.可是我最近看<美国计算机学会通讯>(CACM)上面提到了几次小数据,我觉得大家也有必要了解一下这个有趣的概念. 什么是小数据?小数据就是个体化的数据,是我们每个个体的数字化信息.比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼.这就是我生活中的"小数据",它不比大数据那样浩瀚繁

大数据时代的“小数据”

如今,CIO们都已经接受了"大数据"的概念,另一个概念也逐渐受到关注:小数据. 这两者看似是相对立的两端,但是这不完全正确.小数据往往指数据量;而大数据当然也包含了数据量,但是也包含了多样性,时效性,特定的技术或者其他概念. Kirk Borne,是美国乔治梅森大学的天体物理学和计算机科学的教授, 他认为这两者的区别是很重要的.Borne有关大数据的课程专注于大数据的属性和先进的分析技术, 而这些也几乎总是可以应用于小数据.但是后者却可以使学生进行实验,磨练他们在数据分析上的技能.而大