三个案例透析大数据思维的核心

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系。

以下三个案例分别来自药品研发、司法判决与广告投放,从三个不同的角度了解大数据思维的核心。

  大数据与药品研发:寻找特效药的方法

比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。

青霉素的发明过程就非常具有代表性。首先,在19世纪中期,奥匈帝国的塞麦尔维斯(Ignaz Philipp Semmelweis,1818—1865)a、法国的巴斯德等人发现微生物细菌会导致很多疾病,因此人们很容易想到杀死细菌就能治好疾病,这就是因果关系。不过,后来弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就要寻找能够从人体内杀菌的物质。

最终在1928年弗莱明发现了青霉素,但是他不知道青霉素杀菌的原理。而牛津大学的科学家钱恩和亚伯拉罕搞清楚了青霉素中的一种物质—青霉烷—能够破坏细菌的细胞壁,才算搞清楚青霉素有效性的原因,到这时青霉素治疗疾病的因果关系才算完全找到,这时已经是1943年,离赛麦尔维斯发现细菌致病已经过去近一个世纪。

两年之后,女科学家多萝西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子结构,并因此获得了诺贝尔奖,这样到了1957年终于可以人工合成青霉素。当然,搞清楚青霉烷的分子结构,有利于人类通过改进它来发明新的抗生素,亚伯拉罕就因此而发明了头孢类抗生素。

在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。

其他新药的研制过程和青霉素很类似,科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。这是一个非常漫长的过程,而且费用非常高。在七八年前,研制一种处方药已经需要花费10年以上的时间,投入10亿美元的科研经费。

如今,时间和费用成本都进一步提高;一些专家,比如斯坦福医学院院长米纳(Lloyd Minor)教授则估计需要20年的时间,20亿美元的投入。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内a赚回20亿美元的成本,就不可能有公司愿意投钱研制新药了。

按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。

如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5 000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。

当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。

大数据思维与司法:为香烟定罪

在过去,由于数据量有限,而且常常不是多维度的,这样的相关性很难找得到,即使偶尔找到了,人们也未必接受,因为这和传统的观念不一样。20世纪90年代中期,在美国和加拿大围绕香烟是否对人体有害这件事情的一系列诉讼上,如何判定吸烟是否有害是这些案子的关键,是采用因果关系判定,还是采用相关性判定,决定了那些诉讼案判决结果。

在今天一般的人看来,吸烟对人体有害,这是板上钉钉的事实。比如美国外科协会的一份研究报告显示,吸烟男性肺癌的发病率是不吸烟男性的23倍,女性则是相应的13倍a,这从统计学上讲早已经不是随机事件的偶然性了,而是存在必然的联系。但是,就是这样看似如山的铁证,依然“不足够”以此判定烟草公司就是有罪,因为它们认为吸烟和肺癌没有因果关系。

烟草公司可以找出很多理由来辩解,比如说一些人之所以要吸烟,是因为身体里有某部分基因缺陷或者身体缺乏某种物质;而导致肺癌的,是这种基因缺陷或者某种物质的缺乏,而非烟草中的某些物质。从法律上讲,烟草公司的解释很站得住脚,美国的法律又是采用无罪推定原则a,因此,单纯靠发病率高这一件事是无法判定烟草公司有罪的。

这就导致了在历史上很长的时间里,美国各个州政府的检察官在对烟草公司提起诉讼后,经过很长时间的法庭调查和双方的交锋,最后结果都是不了了之。其根本原因是提起诉讼的原告一方(州检察官和受害人)拿不出足够充分的证据,而烟草公司又有足够的钱请到很好的律师为它们进行辩护。

这种情况直到20世纪90年代中期美国历史上的那次世纪大诉讼才得到改变。1994年,密西西比州的总检察长麦克·摩尔(Michael Moore)又一次提起了对菲利普·莫里斯等烟草公司的集体诉讼,随后,美国40多个州加入了这场有史以来最大的诉讼行动。在诉讼开始以前,双方都清楚官司的胜负其实取决于各州的检察官们能否收集到让人信服的证据来证明是吸烟而不是其他原因导致了很多疾病(比如肺癌)更高的发病率。

我们在前面讲了,单纯讲吸烟者比不吸烟者肺癌的发病率高是没有用的,因为得肺癌可能是由其他更直接的因素引起的。要说明吸烟的危害,最好能找到吸烟和得病的因果关系,但是这件事情短时间内又做不到。因此,诉讼方只能退而求其次,他们必须能够提供在(烟草公司所说的)其他因素都被排除的情况下,吸烟者发病的比例依然比不吸烟者要高很多的证据,这件事做起来远比想象的困难。

虽然当时全世界的人口多达60亿,吸烟者的人数也很多,得各种与吸烟有关疾病的人也不少,但是在以移民为主的美国,尤其是大城市里,人们彼此之间基因的差异相对较大,生活习惯和收入状况也千差万别,即使调查了大量吸烟和不吸烟的样本,能够进行比对的、各方面条件都很相似的样本并不多。不过在20世纪90年代的那次世纪大诉讼中,各州的检察长下定决心要打赢官司,而不再是不了了之,为此他们聘请了包括约翰·霍普金斯大学在内的很多大学的顶级专家作为诉讼方的顾问,其中既包括医学家,也包括公共卫生专家。

这些专家们为了收集证据,派下面的工作人员到世界各地,尤其是第三世界国家的农村地区(包括中国的西南地区),去收集对比数据。在这样的地区,由于族群相对单一(可以排除基因等先天的因素),收入和生活习惯相差较小(可以排除后天的因素),有可能找到足够多的可对比的样本,来说明吸烟的危害。

各州检察官们和专家们经过三年多的努力,最终让烟草公司低头了。1997年,烟草公司和各州达成和解,同意赔偿3 655亿美元。在这场历史性胜利的背后,靠的并非是检察官们找到了吸烟对人体有害的因果关系的证据,而依然是采用了统计上强相关性的证据,只是这一次的证据能够让陪审团和法官信服。在这场马拉松式的诉讼过程中,其实人们的思维方式已经从接受因果关系,转到接受强相关性上来了。

如果在法律上都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。

大数据思维与广告:咖啡与信用卡广告更配哦

2003年Google推出了根据网页内容安插广告的AdSense服务,以与那些在网页中随机投放广告的产品竞争。根据我们的直觉,如果在一个和照相机有关的网站(或者)网页中放上照相机的广告,效果应该最好。这其实就是用到了相关性的特点,但是大部分时候,相关性并不是那么直接,不能一眼就看出来。根据大量数据的统计结果,我们发现这样一些广告和内容的搭配效果非常好,很多和我们的想象不大相同,比如:

在电影租赁和收看视频的网站上,放上零食的广告;

在女装网站上,放男装的广告;

在咖啡评论和销售网站上,放信用卡和房贷的广告;

在工具(Hardware)评论网站上,放上快餐的广告;

……

这些搭配,如果没有大量的数据统计作为基础,一般人是想不到的。当然,如果仔细分析有些看似不太相关的搭配,还是能够找到合理的解释,比如电影租赁和视频播放网站与零食广告的搭配,符合人在看视频时喜欢吃零食的习惯。

但是,有些搭配会让人完全摸不到头脑,比如把咖啡和信用卡或者房贷联系起来。不管是能够找到原因的,还是想不出原因的(可能背后存在着我们一时想不到的原因),只要使用了这些相关性,广告的效果就好。当然,在利用相关性时,我们希望是那种可信度比较高的,即数学上所谓的强相关性,而不是随便把一些看似相关的东西扯到一起。

我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。

牛顿和爱因斯坦都是运气很好的人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。

本文转自d1net(转载)

时间: 2024-10-25 23:06:22

三个案例透析大数据思维的核心的相关文章

吴军:三个案例透析大数据思维的核心

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果.在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信.而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系. 以下三个案例分别来自药品研发.司法判决与广告投放,从三个不同的角度了解大数据思维的核心. ◆ ◆ ◆ 大数据与药品研发:寻找特效药的方法 比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子.   青霉素的发

透析大数据负载平台与技术现状与趋势

在上一篇文章中,我们结合ZDNet发起的中国大数据认知与应用市场调研,从全局的角度对基于中国不同地域以及不同行业对大数据的认知和关注程度进行了扫描,并从中看到了x86架构作为大数据基础平台的接受度以及发展潜力.本文将在上一篇的基础上,结合数据库应用和相关技术对调研报告进行解读,并从中总结几大发现和结论. 一.对大数据分析和存储的需求旺盛 调研的数据显示,除了已经认知到大数据具备容量大.产生速度快.数据类型多的特点,包含非结构化和半结构化数据之外,更多的企业还会联想到数据存储和数据分析等大数据处理

大数据思维与数据挖掘能力正成为大型商业银行核心竞争力

◆ ◆ ◆ 摘要 大数据能力特有的性质,使其正在成为大型银行真正的核心竞争力.银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键.也是最重要的.数据挖掘对银行竞争力的影响主要表现在客户洞察.营销规划.产品创新.风险管理.流程优化.网点选址和人力资源管理等方面.大数据价值的实现,关键在于挖掘分析能力.数据挖掘可以推动商业银行战略转型.提升运营管理能力.重塑银行企业文化.促进风险经营的精细化专业化.银行数据挖掘能力建设的关键是行动,行动中需要考虑许多因素,包括挖掘分析工具和方法.数据获取

三本书让你了解大数据

团购.社交媒体.电商:云,O2O,大数据.每个阶段都有热点词.这会儿最热的应该就是"大数据"了.不过,有点滥,有点俗,似乎也有点泡沫化了.不用担心,一般来讲,讲得最厉害的时候,时候还早呢:等到无声无息了,那真是随风潜入夜了.但是,说真的,处于这个风云激荡创业年代的人们,如果能够静下心仔细了解点有关大数据的概念.框架.实质,对于形成所谓的"大数据观",真心有必要,真心有帮助. 市面上如今关于大数据的书,近20种.挑出这三本,是有理由的.不仅单本比较靠谱,讲述得有意思,

大数据思维离我们有多远?

大数据是一个含糊不明确的词,用来形容一种大规模现象,这种现象目前已经迅速成为企业家.科学家.政府以及媒体追寻的焦点. 大数据令人瞩目 5 年前,谷歌的一个研究团队在世界上最著名的科学期刊<自然>杂志上发布了一项令人瞩目的研究成果.不需要任何医疗检验结果,该小组竟能够追踪到当时扩散在全美的流感趋势,而且追踪速度甚至比美国疾病控制中心(CDC)要快得多.谷歌的追踪只比流感的爆发晚了一天,而CDC却花了一周甚至更多时间, 来汇总一张流感传播趋势图.显然,谷歌的速度更快,因为它通过寻找"在线

互联网思维PK大数据思维

我们在O2O时代做营销,到底哪种趋势和战略更加有效?这里有两种不同的思维方式,一个是互联网思维,另一个是大数据思维.互联网思维与大数据思维有交集但又不重合.目前热炒的互联网营销案例,基本上剥离了大数据,更多是题材炒作和传播方式炒作.而大数据营销也不局限于互联网,它还包含了线下营销. 营销艺术与科学之辩如何 看待这两种营销思维?事实上互联网思维和大数据思维的PK,本质是关于营销的艺术和科学之争.一个流派认为营销是门艺术,只可意会不可言传:另一流派则把营销当作科学对待,通过对消费者行为数据的收集和分

互联网思维VS大数据思维:求同存异

我们在O2O时代做营销,到底哪种趋势和战略更加有效?这里有两种不同的思维方式,一个是互联网思维,另一个是大数据思维. 互联网思维与大数据思维有交集但又不重合.目前热炒的互联网营销案例,基本上剥离了大数据,更多是题材炒作和传播方式炒作.而大数据营销也不局限于互联网,它还包含了线下营销. 营销艺术与科学之辩 如何看待这两种营销思维?事实上互联网思维和大数据思维的PK,本质是关于营销的艺术和科学之争.一个流派认为营销是门艺术,只可意会不可言传;另一流派则把营销当作科学对待,通过对消费者行为数据的收集和

大数据思维的十大核心原理

大数据思维是客观存在,大数据思维是新的思维观.用大数据思维方式思考问题,解决问题是当下企业潮流.大数据思维开启了一次重大的时代转型. 大数据思维原理是什么?笔者概括为10项原理. 一.数据核心原理 从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心.Hadoop体系的分布式计算框架已经是"数据"为核心的范式.非结构化数据及分析需求,将改变IT系统的升级方式:

湘雅医院黄伟红教授:希望AI专家多来医院讲课,把大数据思维渗到各个医疗环节

"我们不能只把大数据当做技术活儿,更应该让它形成一种文化.让更多老师和专家进入到医院里讲课,把大数据思维渗透到临床一线.科研一线,渗透到管理者的大脑里去." 在提及大数据和AI对医院的好处时,黄伟红如此说道. 黄伟红现为中南大学湘雅医院"移动医疗"教育部-中国移动联合实验室副主任,该实验室是教育部唯一一个设在医院里的医疗信息化实验室. 雷锋网了解到,实验室成立的目的,主要是为探索交叉学科如何走向科研和技术前沿,以及成果转化. 医院做AI,人最重要,技术次之 黄伟红首