当大数据真的变得更好时

以往的经验告诉我们,充分发挥扩展优势会带来更大的分析价值。但是大数据[注]并不是一把万能的锤子,而每一个问题也不是一个靠锤子就可以解决的钉子。

许多人认为大数据意味着越大越好。人们也常常从各种哲学视角来诠释“越大越好”这一问题。对此我将这些角度归纳为:

信仰:是指容量更大、速度更快和种类更丰富的数据总会带来更多洞察力,而这正是大数据分析的核心价值。如果我们无法发现这些洞察力,那是由于我们没有充分认真地尝试,或是我们的灵活程度还不够,或者是我们没有使用正确的工具和解决方案。

偶像:是指数据的庞大容量本身就是有其价值的,与我们是否能够从中获得特殊的洞察力无关。如果我们仅凭其所支持的特定商业应用来评估它们的效用,那么在这方面,我们是与数据科学家们当前的需求是不一致的,数据科学家们的需求是将数据不加分别地存储到数据湖中,以支持今后的探索工作。

负担:是指数据的庞大容量未必是好事或坏事,但是一个无法改变的事实是,它们会对现有数据库的存储和处理能力带来极大的压力,并因此让(Hadoop等)新平台成为必需品。如果我们不能跟上这些新数据增长的步伐,那么核心的业务需求将被迫转向新型数据库。

机遇:在我看来,这是一个处理大数据的正确解决方案。随着数据规模上升至新的层次,流动的速度更快,数据的来源和格式不断增长,这一解决方案将重点放在了更为高效地获取前所未有的洞察力方面。它没将大数据作为一种信仰或偶像,因为它知道即便较小的数据规模也能够持续获得许多不同的洞察力。它也没有将数据的规模视为一种负担,而是视为一种挑战,这种挑战能够通过新的数据库平台、工具和实践加以有效应对。

2013年,我在博客中曾就大数据的核心使用案例展开过讨论,但当时只涉及到如上方程式中的“机遇”部分。晚些时候,我发现大数据中“大”这一核心价值源自于能否用增加的内容揭示出所增加的背景环境。在你分析数据以探查其完整意义时,背景环境自然是越多越好。同样的,当你尝试着在自己的问题范畴中识别出所有的变量、关系、模式以找到更好的解决方案时,内容也是越多越好。总之,越来越多的内容加上越来越多的背景环境,通常会导致数据也变得越来越多。

大数据的另一个价值在于,它们能够纠正那些小规模数据所产生的错误。曾经有观察过该问题的人说过,对于数据科学家而言,在训练集中数据偏少意味着他们更容易受到多个模型风险的影响。首先,数据规模偏小可能会导致用户忽视关键的预测性变量。同时,用户选择没有代表性的样本导致模型出现偏差的几率变大。此外,用户可能会找到一些虚假关系,如果用户拥有能够揭示实际发挥作用的基本关系的完整数据,那么他们就能够识别出这些虚假关系。

规模非常重要

所有的人都认为,一些数据类型和使用案例比能够带来新洞察力的数据更有帮助。

我近期偶然看到了一篇名为《大数据的预测模式:越大就越好吗?》文章,文章对数据的一个特定范畴——稀少的细分行为数据进行了详细阐述。在这方面,数据规模通常能够提升预测成绩。文章的作者Junqué de Fortuny、Martens和Provost称:“这类数据集的一个重要问题是它们通常都比较稀少。对于任何给定的实例,绝大多数特征都没有价值,或是价值没有表现出来。”

最值得关注的是(作者通过引述丰富的研究来支持他们的论点)(+微信关注网络世界),这类数据是许多以客户分析为重点的大数据应用的核心。社交媒体行为数据、Web浏览行为数据、移动行为数据、广告反应行为数据、自然语言行为数据都属于这类数据。

作者认为,“实际上,对于大多数预测分析型的商业应用,例如金融业和电信业的定向市场营销、信用评分、损耗管理等应用,用于预测分析的数据都非常相似。这些产品的特点都集中于个人的背景特征、地域特征和心理特征,以及诸如优先购买行为等一些通过统计总结出来的特定行为。”

“更大的行为数据集往往会更好”的关键原因非常简单,作者认为“没有大量的数据,一些显著的行为可能就无法被有效地观察到。”这是因为在零散的数据集中,行为被记录的人可能只会展示次数有限的行为。但是当你放眼整个人群时,每一种特定类型的行为你可能会观察到至少一次,或者在特定的环境中观察到多次。如果数据偏少,那么所观察的目标和观察到的行为特征也就会偏少,这将导致你会忽略许多东西。

预测模型所依靠的正是源行为数据集的丰富性。为了在未来的更多场景中预测更为精准,数据规模通常是越大越好。

当越大等同于越模糊时

尽管如此,该文的作者也提到了一些场景。在这些场景中,越大越好的假设不成立,那么我们就不得不使用特定行为特征的预测价值。这时候,权衡取舍就成为了预测行为模型的基础。

预测模式中每一个增加的行为特征,应该与所做的预测充分地联系起来,以提升模型的学习收益和预测能力,克服不断拉大的差异,即过度拟合和预测错误,因为这通常会产生更大的特征集。正如该文章作者所说的那样,“大量不相关的特征只是增加了差异和过拟合的机率,而没有相应地提升学习到更好模型的机率。”

显然当“大”妨碍到了获取预测性洞察力时,越大并非越好。用户不希望自己的大数据分析努力成为数据规模扩张的牺牲品。数据科学家也必须充分了解应该何时调整数据模型的大小,以适应手中的分析任务。

原文发布时间为:2014年12月26日

本文作者:IBM大数据专家

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-11-05 22:37:38

当大数据真的变得更好时的相关文章

大数据真的会让医疗更美好么?

医药行业科技发展落后了数十年之后,如今真正走入了它的大数据时代.手机技术.传感器.基因组分析以及分析软件的开发使得大量个人信息的捕获成为可能,包括人体的组成以及周围的环境,这些信息共同改变了医药行业.行业目标从大众化治疗变为了个性化诊疗,治疗的可控性增强,这对于医生和患者来说无疑是个利好消息. 据麦肯锡顾问公司推测,隐藏在这些医疗数据中的商机可能高达每年3000-4500亿美元. 麦肯锡顾问公司曾建议苹果.高通.IBM公司投资科技产业,小至智能手机应用程序,大到价值十亿美元的分析系统.而一些刚创

大数据推动信息安全产品更智慧

文章讲的是大数据推动信息安全产品更智慧,2013年最热门的科技词汇非"大数据"莫属,其相关书籍长期霸占各大畅销书排行榜,人们对于大数据给出了前所未有的关注度.大数据所带来的新思想,正在逐步渗透进每一个行业,改变着我们每一个人作为数据创造者的思维方式.大数据问世之前,正是互联网.云计算.物联网等技术快速发展的时期,而随着智能终端.数字城市等信息体的普及和大范围建设,任何人任何时刻在任何地点都在产生数据,全球数据量出现爆炸式增长,大数据时代已经到来.大数据的出现为信息安全带来了巨大的挑战也

大数据怎么让生活更安全?

随着科学技术的发展,大数据这一依托于计算机及互联网技术发展起来的新事物一跃成为万众瞩目的焦点.大数据是一把双刃剑,既推动着社会进步,又给信息安全形势带来威胁,那么该如何运用大数据,从而让生活更加安全呢? 360企业安全集团总裁.2016ISC中国互联网安全大会大数据论坛主席吴云坤表示,近年来电信诈骗猖獗,伪基站信息泛滥,因网站或平台被攻击,导致个人信息泄露的事件屡见不鲜,在这种背景下,大数据安全技术作为海量数据实时分析处理的新兴技术,可以为安全生活提供保障. 吴云坤认为,大数据可以让生活更安全有

大数据真的在云计算上的快车上吗?

软件初创厂商AtScale公司去年年底发布了其年度大数据成熟度调查报告(以前称为"Hadoop成熟度调查"),显示商业智能大数据是首要任务,并正处于云计算的快速发展阶段,数据治理越来越受到关注. 该报告及其结果在最近ODPi用户顾问委员会(UAB)的会议上成为了一个主要的讨论话题,ODPi用户顾问委员会(UAB)是由来自汽车,技术和娱乐行业等使用Apache Hadoop和其他大数据技术的大型企业的代表组成.ODPi UAB十分认同报告中所提出的日益增长的数据治理问题.自助服务访问大数

大数据联盟是豆瓣更大的新机遇

参与交易 传统互联网时代的主要盈利模式是广告,但它在移动互联网并不适用.手机屏幕小,天然就不适合做广告,效果也差,移动广告的盈利模式已经逐步走入困局. 移动互联网时代APP们的主要盈利模式应该是"参与交易",获得分成.比如一个用户打开某个APP,这个APP得到了用户的位置信息,比如在五道口,通过开放的API,和其它APP共享了这个位置信息,大众点评就可以据此即时push一个附近烤肉店的团购券,或者当用户下次打开美团网,美团主动推荐一个附近的KTV的优惠券.如果该用户在大众或美团下单了,

大数据如何变得如此之大

今年真是大数据的交叉年:作为一个概念.作为一个术语.同时还作为一种营销工具.大数据已异军突起,突破科技界的局限,成为主流.首先,关于大数据,这里必须强调几点:大数据是今年在瑞士达沃斯9374.html">世界经济论坛上的一个特色主题,报告题为<大数据,大影响>.今年3月,美国联邦政府宣布投资2亿美元启动"大数据研究和发展计划". 里克斯莫兰,"一日生活"摄影系列的创作者,有了一个新的项目作品,被称为"人类面对大数据".

社交网络+大数据真的用来可以模拟一个活人吗?

最近在B站恶补了一部几年前的英剧.<黑镜>(Black Mirror). 这片子风格奇特,每一集都独立成篇,讲一个完全架空的故事.其题材天马行空无迹可循,所以我一直是拿它当英国版的<世界奇妙物语>来看的. 其中第二季第一集让我脑洞大开: 故事说的是一对彼此深爱的夫妻,某日丈夫出门后就再无音讯,直到警察上门妻子才道丈夫出车祸死了.原本甜蜜平静的日子突遭飞来横祸,妻子痛不欲生. 在葬礼上,妻子的闺蜜偷偷告诉她,为了帮助她度过这段感情上最艰难的时期,已经为她注册了一个新的互联网虚拟服务.

新时代,大数据战略和DevOps更配

从大数据中获得有价值的洞察是每个企业的愿望,但是无奈理想很丰满,现实很骨感,再加上大数据软件开发人员和IT操作缺乏企业的协调,这也使得从大数据中获得洞察变得更加困难.还有的企业在其支持的其它项目中可能采用了良好的DevOps策略,但是大数据项目往往因为各种原因没有采用. 接下来,本文将来探讨一下DevOps是什么.为什么大数据项目团队不使用DevOps方法.使用DevOps的好处以及将大数据迁移到DevOps模型时可能会面临的挑战. 图片来源于informationweek 什么是DevOps?

从“数据”到“大数据”:变与不变

ZD至顶网CIO与应用频道 08月01日 北京消息: 企业管理中对于数据的应用历史悠久,如6sigma管理.精益管理等很早就提出基于量化管理的要求,而经营分析.报表体系和BI等在很多企业也有了广泛应用.那么,目前我们谈到的大数据应用,有哪些特征?与传统数据分析相比,有哪些变与不变? AMT长期致力于企业的"管理+IT"前沿研究和咨询实践,帮助企业实现信息技术与业务管理的深度融合与创新."数据"作为信息技术的重要组成要素,AMT咨询服务中涉及数据管理的业务演进可以分为