【干货】大数据,你懂了吗?

演讲全文:

今天的汇报,我会首先从行业概览的角度给大家介绍一下行业大数据的发展现状;然后着重在医药行业给大家展示一些行业新领域;最后和大家谈一谈决策风险。

今年习总书记专程考察了贵阳大数据的发展状况,说明我国已经开始从战略层面关注大数据的发展问题。

数据定义世界,我们一直在用数据定义整个世界,下面是几个例子。

对于和大数据有关的一些数字我并不认同。我认为结构化的数据是自从有了人类文明或者地球文明之后才产生的,而非结构化数据是一直存在的,并且一直在以百倍、千倍的速度增长。大数据一直存在,之所以现在才被关注,只是因为它的利用程度有了显著提高而已。

再来看定义,大数据不仅是信息资产,更包括处理信息资产的方式。大数据的四维特性是巨量、高速、多样和不确定。

首先我介绍一下交通行业在大数据背景下的演变。大数据首先在出租车行业展现出优势,快的和滴滴改变了我们叫车和等车的体验,这对出租车行业是好事,它通过提供增值服务促进了行业发展。

随着这种体验的增长,出租车之外出现了专车,之后又出现了拼车,这不但造就了出租车行业的演变,连公交行业也受到了影响。最后出现了新兴行业倒逼传统行业的现象,北京公交和成都公交已经开启了定制化公交的项目。可以说,大数据推动了公交行业的转型。

我要介绍的另外一个行业是金融行业。大数据对金融行业的影响也是从增值服务开始的。支付宝从为银行提供增值服务到切分储蓄和贷款两个银行业专有市场,正在逐步倒逼现有银行业的转型。

健康领域也有了很多创新产品。穿戴设备有小米手环,苹果手表,腾讯的糖大夫,谷歌的隐性眼镜等。非穿戴设备也很多,例如芯片药片,它能够产生大量的实时数据,让医生更准确的知道治疗的疗效。

虽然已经有了这一系列发展,但是自我健康管理依然只是刚刚起步,将来的自我健康管理会更加深入的与人们生活相结合,这对于早期疾病管理是非常有帮助的。

全球医疗都在面临巨大挑战。医疗成本居高不下,医保资金相对偏少,然而医疗资源却浪费严重。现在的医疗模式是实验型医疗,千人医药,却未必对每一个个体都有效。

另一个重要方面是医疗资源分布极度不均。重点医院人满为患,但是社区医院、乡镇医院、二三线城市的医院却出现了门可罗雀的景象。没有患者自然留不住医生,这又从另一个角度造成了医疗资源的浪费。

关于医疗改革我有以下几点思考。

第一点,医疗将会走向服务化,一个是医疗数据的云化。人民医院是中国第一家通过HIMSS 7国际认证的医院,建立医疗数据标准化和大数据平台共享医疗数据,患者数据不但可以在医院内各个部门通用,而且能够共享给下属的100多家医院,实现患者在各医院间的自由转诊。

另一个是远程医疗,目前有很多实践,其中一些已经形成了业务模式。

第二点,医疗将会走向个性化。一个是要破局千人一药,以后不能所有人都吃一种药了,而是需要考虑个体差异;另一个是结果导向,根据病人的预期结果用药可以极大的减少医疗资源浪费。

这上面是人群对于医生的比例,非洲是五万比一,美国是四百多比一。医疗资源在这个世界上是分布不均的,我们现在也想积极地为非洲做一些事情,尤其在这个领域,大数据以及远程医疗会对非洲产生非常大的帮助。

下面,我选了一些具体案例。在蓝线之上的案例已经具有一定业务模式,甚至有些已经开始盈利。蓝线之下的案例有些正在建立业务模式,有些正在研究中。

23andme是非常成功的一个案例,是初创行业的典型,用钱买数据,用数据产生价值。基因测序可以发现潜在的肿瘤、心血管等疾病的概率。

从2000年开始23andme这家企业就开始提供廉价的基因测序服务,这种赔本生意延续多年却收集了大量基因数据。这些基因数据有助于减短研发周期,但是却需要大量计算资源作为支撑。

近期23andme刚刚拿下一家医药公司六千万美金的订单,提供数据用于支持他的医药研究。当然国内市场也在该领域作了很多工作,例如目前已经有基云惠康,博川基因、Hi基因等。

谷歌隐形眼镜,在医疗领域所做的研究非常超前。它利用集成在隐形眼镜表面的超微电路,实时搜集佩戴者信息。这些信息包括血糖信息,也包括体温、酒精、环境感知、光线等等。通过这些信息我们可以及时地了解自身状况,并且能够对症下药地改变使用者的生活方式。

数字药片的概念很早就被提出了。传统的服药方式没有办法监测药物在体内发生的变化,数字药片却改变了这一点。

数字药片上有一个小小的芯片,这个芯片能够获取服药者的体内温度和药物反应效果的数据,而后通过传输芯片把这些数据传输到服药者身上贴着的一个带有接收器的膏药上,经过信号放大,最后通过手机上传到网络云。

目前全球药物浪费中有一个方面是取药而不吃,如果有数字药片,就可以监督用药者服药情况,并及时提醒按医嘱服药,仅这一点就能够在改善医疗效果的同时减少大量浪费。

FindZebra是一个类似于谷歌搜索的疾病搜索引擎,如果在门诊看病目前的误诊率在50%左右,这个误诊率其实并不算高,即便在医院做B超、CT或者所有的化验,误诊率依然可以达到30%。

欧洲罕见病组织做了一个研究,25%的罕见病患者需要等待5到30年才能被正确诊断,罕见病的定义是两千人中少于一人。大家觉得罕见病不用太关注,但是中国现在有13亿人,罕见病有多少人?

医生是经验导向的,他的经验导向完全取决于他昨天看了什么病人,或者他对于医药行业有多少了解。有些很有名气的医生喜欢看大病,但是他未必了解罕见病。FindZebra创始人的思路是通过文件算法、机器索引的方式告诉查询者可能得了什么病,这可能比你去医生那边看还要准确,退一步说,它至少能够成为医生的一个好助手。

下面我介绍的是一款软件,现在软件也可以通过医疗设备认证了。这是首款通过医疗设备认证的软件。它不通过药物降低血压,而是通过运动饮食建议能够帮助患者在三个月的时间内降低5个毫米汞柱的血压。

这款软件最大的意义在于它成为了医疗设备,这也是很多公司工作的一个方向。我们可以做的分析有很多,并且不需要太多创新。如果在这个软件的基础上加入更多的及时采集设备,它就会变的更加智能。

这款软件的意义也是非常显著的,它不但能够让患者减少用药,同时可以为医生提供持续的医疗辅助。

GoogleX纳米粒子也是一个很前沿的项目。它的主要思路是在血管中植入一些磁性的纳米粒子,这种纳米粒子能够随血液流遍全身,并且可以和不同种类的细胞相结合产生变化。手腕上的手环可以搜集这些粒子,与此同时身体内的疾病、健康数据都被采集了出来。

GoogleX纳米粒子是未来五到十年的科技,但以现在科技的发展速度,或许将来三到五年就会有一些成果出现。

前面有一个案例是用App的方式辅助治疗,这个案例却在尝试用App代替治疗。现在精神抑郁患者在全球有4亿人。

人的大脑是可以被治疗的,或者通过治疗可以得到一定程度的恢复。统计数据表明80岁的老人通过四周的训练,大脑功能的某些方面能够超过20岁的年轻人。

这个软件是在大数据的基础上做了一个头脑模型,又基于这个模型进行了一些临床实验方面的优化,最终的表现方式就是通过玩不同游戏来训练大脑的不同部位。

它会教授大脑锻炼的普通规律和技巧,而后通过一些游戏强化人们对这些信息和解决问题路径的记忆,最后提高大脑的预测和思考能力。

细胞医学的主要做法是从癌症病人体内取出一个T细胞,也就是白细胞,这个白细胞相对比较健康。

我们对这个细胞重新激活,再放回到病人体内,放回去的细胞会做两件事情:

第一,它看见了癌细胞就立即进行几何倍数的分裂。

第二,对癌细胞进行惨无人道的攻击,与癌细胞同归于尽。目前这种方法已经有了成功挽救生命的案例,并且正在经历临床实验和更进一步的研究。

我们在谈大数据的时候必须要认识到它的风险,大数据为什么会有风险?从原始数据到数据精炼到决策,这是大数据决策的一个方式。

看一下大数据,09年Google宣布预测流感趋势只有一天延迟,但这却是一个非完全数据,09年谷歌并没有预测到猪禽流感、2010年华盛顿大学发现谷歌的预测比美国疾控中心还差25%、2013年自然杂志发现谷歌预测值比实际高出50%、他是基于过去的数据做出的建模,这种建模可能一个月有效,但是长期未必有效。

大数据同时也会说谎,能够产生数据并记录下来有可能是一部分人的特权。在美国2012年桑迪飓风袭击美国东海岸的时候,他们通过食品采集发现飓风过后一天夜间活动会增加,是因为飓风之后有很多人发烧了,要外出看病。

曼哈顿关于飓风的推特数量是最多的,所以大家推测曼哈顿是飓风最严重的地方,但是他们忘记了在受灾更严重的地方,人们在飓风来临时没有办法上网。

其实大数据也会扼杀创新。黑莓对客户非常了解,他通过对于用户习惯的纪录建立了预测模型,按照用户的喜好设计下一款产品。但是长远的结果是,大家见到越来越多自己想看见的东西,却再也看不见让自己惊喜的东西。

大数据有隐私风险。从Medpoint收集患者近五年的处方记录、购药记录和可能的疾病信息,帮助保险公司发现高危人群、降低成本、减少保费支出和增加盈利。当有一天你特别着急的时候,你找保险公司,保险公司说对不起,我不会给你投保,因为你可能明年就会得肿瘤。

这就是为什么基因数据要受到监管,一般的医疗机构已经没有办法给大家做预测了。Intelliscript提供类似信息给保险公司,以获得5倍、10倍甚至20倍的收益。我们大家作为大数据的推动者,必须规范大数据的正确使用,保证数据安全和隐私。

最后看一下大数据的发展阶段,无论你在公司、在企业,都会经历这样的几个阶段:

第一个阶段,数据是原始割裂的;

第二个阶段,数据会相互共享,但是这是一种结构化的共享,是严格控制的共享;

第三个阶段,会出现数据池,现在已经有很多行业的数据池在产生,包括我们今天谈到的病例大数据、医疗云;

第四个阶段是共同创建,创建一些数据俱乐部,达到所有人数据共享和共赢的状况。

在这几个阶段中间,你准备好了吗?大家对于自己的行业和自己的公司可以做一个简单的评估,你是处于哪一个阶段。

第一对于机遇的把握,你是现在还没有办法把握将来的机遇,还是说你今天已经非常熟悉、能够熟练掌握

。第二,对于将来可能出现的机遇你并不是非常清楚,其实你有很多想法,对业界发展动态有很深的了解,并且有你自己的理解。在数据的丰富程度上,你现在是有少量的数据,还是已经累积到大量的数据?

在大数据的相关活动中你是被动的还是积极的。这中间有四个角色。现在很多人处于资源浪费者的位置,尤其是传统企业,例如医疗行业,也有一些是企业管理专家,他对于结构化的数据有非常高的把控,并且能够适度的应用;另外一些是真正的胜利者,真正的胜利者会利用数据的力量改变我们的业务模式。

因为大数据存在的目的有两个:

一个是优化我们的业务模式。

另一个则是要产生一个新的市场、新的业务模式,以及对现有传统企业的巨大颠覆。

在这几个方面可以看一下你公司的文化,是不是所有的投入都要考虑回报率,谷歌有个研发部门从来不考虑他的投资回报率,他的所有投资都是天马行空的。你是不是鼓励这种智慧,鼓励这种意见思想,在人才的角度是不是有足够的好奇和反传统,是不是有足够的外部关注度。

我曾经在一家非常高效运作的企业工作,这家企业是诺基亚,但是它被击垮的那一瞬间真的很无辜。你是不是有非传统技术人员,以诺基亚为例,在公司内部有很多的人才也看到了公司将来发展方向的不足,但是很可惜当时的主流思想依然导致了公司一如既往地往硬件研发的方向走,而没有顾及到市场的变化。

最后,你是不是有专项数据,有整合外部数据的方式,有没有共享资源,有没有竞争优势的数据,这些都是你要思考的。有的时候,数据不是问题,数据太多了,只要你想要,就会有足够的数据来帮助企业实现转型。真正的问题在于你有没有认识到你身边数据的重要性。

问答环节

1 提问:一年前有个的医生说:通过泪液的方式检测血糖会产生一个延迟,所以你可以把谷歌隐形眼镜当作穿戴设备用,但是不能当做医疗用。这一点您怎么认为?

高建雄:你说的延迟,一方面我们会继续研究,另一方面我们也会通过不同的体征信息的变化更加及时地去监测到它。将来的隐形眼镜或许可以检测更多的体征信息,比如说虹膜识别,甚至可以用来作为身份验证。

2 提问:我个人是来自于法律服务行业,法律服务行业有一个痛点,律师很多时候是按小时来收费的。现在是不是我们可穿戴设备已经能够做到了解这个人是不是在思考,是不是在做事务性的工作,有这样的设备以后,律师的计费将更加精准,这个行业也将被颠覆。跟您探讨一下有没有这种可能性?

高建雄:你这种自我解剖、自我颠覆的精神非常值得我们学习。我觉得从技术的角度上是可以实现的,但更多的是在人文的角度上、文化的角度上会不会这样做。即便律师作为一个服务行业,我们也要尊重律师自身的隐私。

3 提问:医疗数据里面,如果数据有缺失,你们是怎么处理的?舍掉这样的样本还是有一些其他的处理?

高建雄:首先大数据不可能是全局的,所以大数据本身就是基于现有采集的数据,然后再进行子集分析的。理论上他可以利用未缺失的那些寻找规律,因为本身你不可能找全集的研究,至于说你缺失了两段或者是四段,或者都没有缺失,你都是进行他的子集研究,如果存在逻辑的话,他的逻辑不会因为缺失这两段而发生变化,但是这同时就是我们的数据风险,你需要去评估你缺失的这两段是不是关键信息。

4 提问:之前给北大医学院做手术后的跟踪研究,很多用户在回访的时候很多关键的数据是没有的,即便有可穿戴设备,很多信息他也不愿意记录。这个问题你们怎么解决?

高建雄:你没有办法拿到全数据,尤其是患者如果不配合的情况下,你的研究被误导。

在这种情况下,第一,是不是有更加先进的方式能够采集数据,因为用户主动输入的话,这些数据往往会出现很多的问题。一定要有一些新的方式来进行数据的采集,更加自动的,包括现在有很多,大家觉得自己有隐私的话,那就大错特错了。

如果你有手机,你一天的行动都被记录。如果你有车,你一天的行车轨迹,在哪里,什么时间,停了几次,是会被摄像头自动记录的。实现数据的自动记录可以大幅度提高数据采集的质量。

5 提问:您一直在谈数据很重要,包括说到大数据上升为国家战略,您这个公司也是跨境的公司,大家的医疗数据在国内是怎么样一种保护的方式?最近谷歌在欧洲也受到跨境数据流动的问题。国外有什么样的监管?

高建雄:数据监管是一个非常严肃的话题,尤其是患者隐私。如果我们泄露了一个人的隐私,会面临巨额的罚款。对于我们这样的医疗企业监管非常严,但是对于互联网企业,他们采集了很多相关的患者信息,或者人群的信息。比如说你的手环采集到你的运动和健康相关的信息。

我们在呼吁企业自律的同时,也期待行业组织能推动相关的数据安全立法。将来数据必须要被监管,但是监管的同时要好好利用,这是一个世界性的难题。

谢谢大家!

原文发布时间为:2017-03-12

时间: 2024-12-30 21:05:36

【干货】大数据,你懂了吗?的相关文章

干货|大数据Hadoop快速入门教程

1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 2.HDFS 源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障 HDFS简化了文件一致性

大数据更懂球?

足球乃至体育运动天生和数字相关.比分牌上的比分,球衣背后的号码还有教练和电视解说员念念叨叨的各种阵型--竞技场上,数字无处不在. 2010年,时逢南非世界杯,英国体育记者西蒙·库珀和经济学者史蒂芬·西曼斯基合写的<足球经济学>一书在国内引进,我们得见大数据理论是如何评球的.今年法国欧洲杯鸣哨之时,又一本关于大数据的足球著作<数字游戏>引进国内.<数字游戏>和<足球经济学>用大数据统计给出众多颠覆性观点,不过结论并不一致.比如<数字游戏>坚持认为足

互联网跨界营销掘金“大数据”

在阿里巴巴投资优酷和新浪.腾讯入股京东和大众点评等战略部署时,不少人仅仅将这些举措看作是互联网的一次"站队行为",又或者解读为被投资的互联网企业需要资本支撑的.但是随着互联网巨头们对部署的各个领域的互联网企业进行横向整合后,一张机遇大数据分发的蓝图则逐渐呈现于公众,由此也对看似跨界的互联网营销增加了重重的砝码. 大数据平台成创业者眼中香饽饽 "现在创业者不缺钱不缺人,缺的是流量."在日前举行的合一集团与阿里百川联合发布"合一百川创业加速计划"活动

当安全遇到大数据 “永恒之蓝”也将无所遁形!

文章讲的是当安全遇到大数据 "永恒之蓝"也将无所遁形!5月12日,席卷全球的勒索病毒"永恒之蓝"让全世界都为之震动,这是迄今为止全球最大规模的勒索病毒网络攻击,100多个国家受到病毒感染,国内中石油.公安内网.高校内网.地铁部分系统等都纷纷被感染.所造成的严重后果至今让人心有余悸,截止到今日依然还有变种病毒在肆掠. 但鲜为人知的是,这个病毒早在3月底.4月初就已经被国内的一家安全公司发现了,这家公司就是瀚思科技(以下简称:瀚思),号称中国第一家大数据安全企业,主打安

CIO沙龙深圳站:金融/制造业玩转大数据

本文讲的是CIO沙龙深圳站:金融/制造业玩转大数据,在互联网+.中国制造2025以及工业4.0的浪潮下,传统企业豁然开朗,似乎找到了转型升级.改革创新的救命稻草.但事实上没这么简单,面对这些大而空的概念,企业没有做好准备很难抓住这波机会,转型将是空谈,无法落地. ▲点击报名参加 找转型良方,来深圳CIO沙龙现场 机会不会从天上掉下来,而是需要企业掌握必备的基础能力,比如制造企业如何借助大数据技术,做到生产制造的精细化管理,节约企业经营成本,最大化市场竞争空间.金融企业如何借助大数据技术分析用户行

谷歌开源 Python Fire;一张图读懂 Python、R 的大数据应用等 | AI 开发者头条

▲ 内容预览: 谷歌开源 Python Fire NASA 发布 2017-2018 软件目录,供开发者免费使用 一张图看懂大数据中 R 语言的应用 一张图看懂大数据中 Python 的应用 每日推荐阅读 谷歌搜索技术分析,如何一步步实现"不止于关键词"? █ 谷歌开源 Python Fire 昨晚谷歌公布了新的 Python 工具包--Python Fire.它的功能很简单:能从任何 Python 代码生成命令行接口(CLI).开发者面对任意一个 Python 程序,仅需调用 Pyt

【干货】吴甘沙清华讲:大数据的10个技术前沿(上)

谢谢大家那么冷从四面八方的赶过来.另外,也是诚惶诚恐,刚才知道有很多清华非常著名的教授来参加,让我觉得压力山大.今天我只是一个非常个人的对大数据的一个认识.这十个前沿不代表是一个非常准确的定义.大家回去不用把这个分类作为自己研究的一个参考.而且今天我这个演讲聚焦在技术上,别讲太多大数据的理念.思维,甚至是应用技术都不讲了.所以今天我主要是讲核心的技术.也许大家听起来会有一点枯燥,现在说干货是好事,但是有点太干了.涉及到的名词和特定的技术领域,这不代表我个人都很懂.在很多地方我都是一知半解.我希望

大数据让商家“很懂你”

开栏的话 随着中国经济发展进入"新常态"以及供给侧改革的着力推进,消费对经济增长的拉动效应日益凸显.商务部最新披露的数据显示,2015年我国社会消费品零售总额预计达到30万亿元,稳居世界第二:前三季度消费对经济增长的贡献率近60%,已成为经济增长的首要动力. 春节将至,"扫年货"的传统势必将引起新一轮的消费热潮.企业如何精准营销扩大销量,消费者如何买到物美价廉的商品,都需要借助大数据的力量.随着大规模生产.分享和利用大数据时代的来临,大数据已被视为一种新的生产要素和

一文读懂机器学习,大数据/自然语言处理/算法全有了……

作者:计算机的潜意识 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前.相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者