大数据会撒谎?如何戳破大数据的谎言

文章讲的是大数据会撒谎,如何戳破大数据的谎言,数据科学家使用统计分析工具深度挖掘数据潜在的内容时经常会遭遇到大数据挖的坑,实际上这些坑并不是只有大数据才有,大自然本身就存在很多虚假的相关性,大数据只是更加剧了这种虚假的相关性。

  随着数据来源的增多和预测类型的多样化,数据建模关系的数量开始接近无穷大。正如David G. Young指出的那样,在预测分析的时候,我们要看到相互作用,变化的曲率、意义,有时甚至要看到变化的标志。

  在做数据建模的相关性分析时,最关键的是找对数据范围,尤其是设置合适的变量和算法。一旦你找到了变量和算法的正确组合,那么你就掌握了正确打开相关性分析的密钥。

  有时候,我们会发现数据建模的相关性可能和实际情况并不相符,它只是你自以为正确的数据模型。即使你本身并没有欺骗的意图,也是按照科学的方法来建模的,但是你的数据模型并不一定能帮助你获得数据背后的真正洞察力。

  认知偏差是每一个人都会犯的错误,即使你是一个非常优秀的数据科学家也不能百分百确保不犯数学和逻辑上的错误、正确的挖掘出数据背后的价值。

  诺贝尔经济学奖获得者丹尼尔·卡纳曼在他的著作《思维说,快与慢》中表示:人类如果没有接受教育,那么每个人都是生而不同的。我们可能无法看透数据统计的深层次内容,但是现实世界确实存在着某种规律,这种规律有时难以捉摸,但有时我们只凭直觉就可以找到。

  如果你是一个正在探索数据驱动的数据科学家,那么你就要注意虚假相关性,它将会是一个非常危险的陷阱。这种虚假相关性产生的原因可能是数据科学家太想要验证某个假设,也可能是迫于企业的商业模式的要求。利用这种虚假相关性建立的数据模型也许能够解决一时的问题,但是它本质还是一个劣质的模型,经不起时间的考验,说不定会在哪个瞬间给你致命的一击。

  那么数据科学家如何才能减少在数据挖掘时无意中做出虚假统计相关性的概率。

  集成学习

  集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。这种方法的难点在于要在不同的样本中进行训练,采用不同的算法,但是这种方法能够有效的揭示一些相关性。集成学习的算法是通过独立模型的结果集的训练、取平均、bagging、boosting等多种方法得到的,能够有效减少各层模型之间的差异。

  A/B测试

  A/B测试其实是一种“先验”的实验体系,属于预测型结论,与“后验”的归纳性结论差别巨大。A/B测试顾名思义就是为同一个目标设计A、B两套方案,其中一个为守擂者,一个为攻击者,通过科学的实验设计、真实的数据监测来选出最具预测价值的方案。

  稳健模型

  这种方法涉及到数据建模的方方面面,为了确保预测是稳定的,我们要多方考虑,比如数据源、采样技术、算法方法、时间等等。此外,离散点分析也是非常重要的,Vincent Granville前几年就已经表示数据集的异常有可能掩盖数据的真正模式,增加虚假相关性的发生率。

  “数据驱动决策”已经成为这个时代的潮流,好的决策应该是数据驱动的,所以数据模型的建立就显得尤为重要。如果你是一个数据科学家,希望以上的方法能够对你建模有所帮助。

作者:田晓旭

来源:IT168

原文链接:大数据会撒谎?如何戳破大数据的谎言

时间: 2024-09-28 15:18:19

大数据会撒谎?如何戳破大数据的谎言的相关文章

戳破大数据泡沫

我们正处于一场关于大数据和分布式计算的炒作中,该是让大数据泡沫破裂的时候了. 是的,穿过一个炒作周期来使技术跨越鸿沟,从早期的采用者到更广泛的大众群体.而且,至少它暗示了一个超越学术对话和试点项目的技术进步.但是更广泛的观众采用此项技术可能只是随波逐流,一直就缺少一些重要的警示观点. 跟随潮流 在一个炒作周期内,通常有一个跟随潮流的供应商群,他们仓促实施一个时髦的技术,试图要保持与其相关而且不会在混乱中迷失方向.但是这些公司的产品可能会使市场混淆,因为最终这些技术会被不恰当地使用. 使用这些产品

红岭创投戳破“互联网”传说:做债务人的VC

源自P2P模式,但不久它就否定P2P:它是一宿a href="http://news.pedaily.cn/industry/互联罿" target=_blank>互联罿/a>金融公司,但现在更看重线下模式:许多人都以为它是一家债权融资平台,但其实它一开始就想引入VC的概念〿/p> 红岭创投董事长周世平是个标准"暖男".他会在采访开始前抓紧时间去朋友圈给太太点个赞:会不时登陆红岭的社区回回帖子,周世平是社区里出了名的"金牌客服"

大数据时代下的人力破局

不久前,网络巨头马云将阿里巴巴进行战略重组,特别是组建了一支专门研究数据的部门,还破天荒地首次任命CDO--首席数据官,专司数据其职,以期发挥数据应用的大力量. 以数据为核心业务内容的阿里巴巴,正式将业务触角伸向数据挖掘板块,这一商业新措似乎是对大数据时代来临做出的最现实注解,同时也标志着大数据时代下的新商业变局已经悄然拉开帷幕. 专业人力资源外包服务提供机构--易才集团创始人.董事长兼总裁李浩认为,大数据时代对传统服务领域的渗透尤为明显,作为与数据打交道最为频繁的人力资源管理行业,更亟待技术改

中国医疗大数据“痛点” :孤岛怎么破

近年来,医疗大数据炙手可热.那么何为医疗大数据? 与医疗健康相关的信息,均可被归入医疗大数据的范畴,数据来源可以是医疗和科研机构,亦可来源于个人甚至政府.其应用场景十分广泛,如药品研发,精准医疗,医保控费,个人健康管理,个性化用药,甚至分级诊疗.远程医疗等.从以太的经验来看,中国医疗大数据的应用各环节有一些共同的痛点. 数据孤岛 首先从机构层面看,在政府政策主导下,当前已经有70%以上的医院实现了医疗信息化,基础设施建设层面已经初见成果. 然而当前仅有不到3%的医院实现了数据互通:传统系统厂商数

大数据解构数据 隐私成EMC们破局的最大障碍

大数据在未来会如何改变我们的生活?在<迷失>制片人J.J.Abrams和Bryan Burk打造的新剧<疑犯追踪>中,强大的计算机集群将整个纽约市的摄像头整合在一起,结合每个人的信用卡记录,医疗及社会保险记录,行车罚单等各种数据,推断并锁定出危害别人或即将被害的自然人. 这部创造了CBS电视台试播集历史收视最高记录的电视剧讲述了大数据在未来的一种可能性,影片中每隔几分钟就会出现监控摄像头拼接的画面,让整个故事更具真实性.就在数年前,斯皮尔伯格导演的讲述类似故事的大片<少数派报

XTools观点:大数据太薄CRM助探索厚数据

文章讲的是XTools观点:大数据太薄CRM助探索厚数据,人的一生会给这个世界留下痕迹,呱呱坠地.童言无忌.青梅竹马;三两知己,把酒言欢,激情四射;大山大河.奇峰怪石.高峡平湖;浮华背后,机关算尽,如此种种.随着互联网时代的到来,更多的社交方式愈加普及,人们的痕迹,就像"孙悟空到此一游"一样,以数据的形式被记录下来.喜欢的书.音乐.电影.景色.同道中人 -- 数据之大,难以想象. 许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据&quo

政务数据放开在即 政策红利下大数据投资亮点凸显

近期,<促进大数据发展三年工作方案(2016-2018)>.<促进大数据发展2016年工作要点>.<政务信息资源共享管理暂行办法>和<政务信息资源目录编制指南>四份文件正式获得促进大数据发展部际联席会议通过,同时,会议指出,全面落实<大数据纲要>,要从加快数据共享开放.推动产业创新发展.建立完善大数据管理机制等方面精准发力. 在政策和政务资源共享在即等利好因素作用下,我国大数据市场快速激活,大数据产业前景明朗,值得投资者关注. 500亿美元市场前

大数据的下一站:快数据?

摘要,:当我们所 有的行为数据都联网, 在云端,我们的下一步应该可能会做什么"大数据"都可以分析后做出预测,但或许这仅仅只是预测,因为"偶然".因为"人的思维"等种种原因,很 多时候,人类不按常理出牌,这样的话,你的数据还能准确的预测出你的行为吗?答案或许是可以的,只是不完全是大数据,而需要快数据!大数据的下一站:快数据?我们在生活或工作中会碰到以下情景:公司的女神MM一直喜欢吃哈根达斯冰激凌,几乎每天要买一杯,但某一天,她却拿着一个DQ冰雪皇后

全国首部《大数据蓝皮书》指出:中国大数据发展呈现十大新趋势

大数据战略重点实验室研究编著.社会科学文献出版社出版的<大数据蓝皮书:中国大数据发展报告No.1>(简称<大数据蓝皮书>)5月28日正式发布.作为全国首部<大数据蓝皮书>,从制度.技术.产业和学科建设等层面对大数据的发展进行分析与研判,并提出中国大数据发展的十大新趋势. 趋势之一:丰富细致的政策体系助推大数据落地.从中央到地方,更加丰富的配套政策与实施细则将促进大数据加快落地,更多地方政府积极推进大数据发展,并在大数据政用.商用.民用领域打造大数据应用的典范. 趋势之二