大数据应用的四个常规错误认识

有关数据和数据分析的高谈阔论比比皆是。不断有人告诫各大公司要规划恰当战略来收集分析大数据,并警告不这么做可能带来的不良后果。很多公司都觉得自己享有客户数据这样一个大宝藏,却大都不知道该如何利用。我们归纳了管理者在数据应用上的四个常规错误认识。

  错误一:没有理解融合的概念

阻碍大数据发挥价值的第一大挑战就是兼容性和融合性。大数据的一个主要特点是其来源多样。然而,如果数据形式不相同,或难以整合,则其来源的多样性将使公司难以削减开支,也无法为客户创造价值。例如,在我们和一个合作项目中,该公司拥有丰富的数据,记录客户的交易量和忠诚度,以及专门的在线浏览行为数据,但是鲜少交叉检索这两类数据来判断某种浏览行为即为交易达成的前兆。面对这种挑战,公司创建了“数据湖”来容纳大量非结构性数据。但是,这些公司能够加以利用的数据目前都显得杂乱无章,只不过是一些以文本,也就是说,当这些数据只是普通的二进制数字时,要将它们井然有序地存储起来非常困难。要将来源不同的它们整合起来更是难上加难。

错误二:没有认识到非结构化数据的局限性

阻碍大数据发挥价值的第二大挑战是其非结构化的特性。对文本数据的挖掘已经有了特别的进展,其语境和技术所带来的认识与结构化数据类似,只是其它形式的数据如视频仍不易于分析。举个例子,虽然拥有最先进的人脸识别软件,有关当局仍然无法从大量视频中识别出波士顿马拉松爆炸案中的两名嫌疑人,因为该软件尚在处理从不同角度拍摄的嫌疑人的照片。

虽然从非结构性数据获取信息面临挑战,但是各公司在利用这些数据初步提升分析已有数据的速度和精确度上取得了显著成绩。比如,在石油和天然气勘探中,人们就用大数据来优化正在进行的操作,以及针对地震钻井的数据分析。尽管他们所使用的数据在速度、种类和体积上都有可能增加,最终这些数据还是用于同一个目的。总之,一开始就希望通过利用非结构性数据形成新的研究假设是站不住脚的,除非各公司通过“实践”有了这种专业能力,能利用非结构性数据优化某个问题答案。

错误三:以为关联分析意义重大

第三大挑战——我们认为是阻碍大数据价值的最重要的影响因素——是观测数据的大量重叠使其因果关系难以明确。大规模数据集往往包含众多相似或完全一致的信息,直接导致错误的关联分析,误导管理者的决策。近日《经济学人》指出“在大数据时代,相互关系往往是自己浮现出来的”,《斯隆管理评论》在博客中强调虽然很多公司都能接触到大数据,但是这些数据并不“客观”,因为问题在于要从中提炼出值得采取行动的信息。同样,典型的用于分析数据的机器学习算法所进行的关联分析并不一定会提供原因分析,因而不会给出可执行的管理意见。也就是说,让大数据有利可图的技巧在于能够从仅仅观测到相互关系转变为正确鉴别何种关联为因果形式,可以作为战略举措的基础。要做到这一点就必须超越大数据。

谷歌趋势是大数据的经典范例,它利用谷歌搜索词条整合记录。然而,它也说明了仅仅用于关联分析的数据是毫无意义的。起初,研究人员称数据可以用于反映流感的传播。然而后来,研究人员发现因为数据体现的是过去,使用这些数据只能在现状与过去模式相关的情况下,稍微改善应对行为。

举个更具体的例子,假设一个鞋业销售商向曾浏览其网站的消费者投放广告。原始数据分析认为消费者看到这些广告会更愿意购买鞋子。可是,这些消费者在看到广告之前就已经对该销售商表现出了兴趣,因而比普通人更愿意进行交易。这个广告有效吗?很难说。实际上,这里的大数据并没有考虑营销传播有效性的因果推论。要知道该广告是否有效,销售商需要进行随机检测或试验,选取一部分消费者不接触这个广告。通过比较看了广告和没看广告的消费者之间的购买率,公司才能确定是否看到广告能让消费者更愿意消费。这个案例中,价值主要不是通过数据创造的,而是通过设计、执行以及阐释重要的试验来创造的。

这是个试验,不是分析观测到的大数据集来帮助公司了解一段联系到底是仅仅相关还是因为反应潜在的因果关系而变得可以赖以作出判断。虽然对于管理者来说,哪怕仅利用记录消费者行为一拍字节的数据来提升效益都很困难,但是比较参与了营销活动的客户和没有参与的客户——根据试验结果——能够让营销人员推论这个活动是否有利可图。

开展实地试验,得出正确的结论,采取恰当的应对措施,都不是轻而易举的事。但是成功的公司已经有能力来设计、开展重要的实地试验,并对其结果评估,采取针对性措施。正是这种“试验加学习”的环境,以及对其能否加以推广的理解和认识之上采取行动的能力,才让大数据有价值。

只是,由于越来越多的数据样本收益递减,这样的试验并不一定需要大数据。比如:谷歌透露说其往往用有效数据的0.1%中的随机样本来进行数据分析。确实,近日刊登的一篇文章显示大数据的大实际上是不利的,因为“数据库越大,就越容易支持你提出的假设。”换句话说,因为大数据提供重叠的信息,公司能从整个数据集,也能从其千分之一的数据集中获取同样的信息。

错误四:低估了劳动力技术需求

开展试验不是公司从大数据推测有价值信息的唯一途径。另一个可行的方法是公司可以培养算法技能,来更好的处理数据。推荐系统便是此类算法的一个范例。推荐系统通过针对关联数据的算法向客户推荐最相关的产品。只是,它不是依靠背后规模庞大的数据,而是依赖识别关键信息碎片来预测客户偏好的能力。的确,往往不是数据的规模,而是计算机学习的算法来确定结果的质量。尽管预测能力可能增加可用数据的规模,但是在大多数情况中,预测的提升说明规模收益随着数据集增加而递减不过,要建立好的算法就需要好的数据分析师。一些公司以为不用聘请员工来分析数据中的因果联系就能将大量的数据转化为信息,他们可能要失望了。

数据本身是没有价值的。只有与管理、构建和分析技能结合来,明确对其进行试验和算法,才能对公司有用。当你把价格信息看做是对价格信息处理的技能时就清楚了。很多情况下,相对于数据成本,留住数据处理人才成本更高。这说明对于一个公司而言,数据处理能力比数据本身更重要。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-07-29 20:36:20

大数据应用的四个常规错误认识的相关文章

【哈佛商评】关于数据分析,管理者的四个常规错误

有关数据和数据分析的高谈阔论比比皆是.不断有人告诫各大公司要规划恰当战略来收集分析大数据,并警告不这么做可能带来的不良后果.像<华尔街日报>近日就提到公司享有客户数据这样一个大宝藏,却大都不知道该如何利用.本文将探讨其中缘由.有公司尝试从巨大的数据中获取实际可用的信息,通过与他们合作,我们归纳了管理者在数据应用上的四个常规错误. 错误一:没有理解融合的概念 阻碍大数据发挥价值的第一大挑战就是兼容性和融合性.大数据的一个主要特点是其来源多样.然而,如果数据形式不相同,或难以整合,则其来源的多样性

成就大数据的“第四个V”

无论是接受还是拒绝,中国金融业的大数据时代正在呼啸而至.据调查,经过多年的发展与积累,目前很多国内金融机构的数据量级已经达到100TB以上.而且,非结构化数据量正在以更快的速度增长.在高数据强度的金融行业,这一发展激起了巨大的想象空间.然而,要抓住这一机遇并非易事. 基于多年的研究与全球项目实操经验,波士顿咨询公司(BCG)系统梳理了大数据在全球金融行业的发展现状.潜在应用.关键瓶颈及应对方案,旨在协助金融机构从价值的角度更好地理解大数据,并在大数据迅速渗入金融业务各个层面的当下抓住发展机遇.

产业互联网(大数据中国 第四期)

产业互联网(大数据中国 第四期) 我们看到互联网金融.互联网旅游.互联网购物.互联网制造以及在线的医疗.教育等,看到企业管理和组织方式.企业融资和销售方式,甚至一些企业内部的人力资源.法律.财务.会议组织.车辆使用等职能都在被互联网改造,或者在新的平台重组变成为新的产业.如果说以前我们的企业无视互联网的存在可能会失去竞争力,未来这样的企业根本不可能存在,就像现在没有企业说不需要水或者电这样的基础设施一样. 互联网对于传统行业的渗透.改造以及带来的创新能力和商业模式升级,带动的是企业管理和商业模式

大数据入门的四个必备常识

一.大数据分析的五个基本方面 1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了. 2.数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值.另外

大数据:第四次工业革命的战略资源

●当今世界,新一轮科技和产业革命正在蓬勃兴起.数据是基础性资源,也是重要生产力. ●大数据技术,就是从各种类型的数据中,采用新处理模式快速获得有价值的信息,从而实现深度理解.敏锐发现与精准决策.目前,大数据产业已渐趋成熟,亟待被各行各业所运用. ●我国发展大数据产业还面临着"信息孤岛"的挑战.跨部门.跨行业的数据共享仍不顺畅,有价值的公共信息资源和商业数据开放程度低,基本处于死锁状态,无法顺畅流动. 新一代信息技术与经济社会各领域的深度融合,引发了数据量的爆发式增长,使得数据资源成为国

GE报告:中国更信任大数据 期待第四次工业革命

根据GE创新风向标全球调查,70%的高管对此数字化进程的潜在价值给以乐观积极评价,对步入"第四次工业革命"充满期待.受访者预期,工业领域将成为数字科技发挥巨大价值的中心舞台,数字化工业将引导全球经济从重规模降成本的增长方式向重创新提效率的模式转变,并最终为全球新一轮增长带来巨大动力. 在中国,随着互联网行动战略的推出,阿里巴巴和百度的成功被认为仅仅是数字化风潮的开端.对基于数字科技的创新,中国的受访者比世界上其他的国家的态度更为开放.86%的中国企业家认为先进制造将改变整个产业结构.6

大数据平台引发四个行业新机遇

大数据平台是从各种各样类型的.漫无边际的数据中,快速获得有价值信息的处理方法或框架.大数据中的"大"不是大数据的唯一指标,而是更强调数据的类型多样.处理的速度和获取价值的能力.分析人士表示,大数据对传统行业的重构有望成为中国经济新一轮快速发展的关键推动力,对于A股上市公司而言,IT业.移动互联网.交运和电力安全设备生产商等四类板块受益明显. 数据来自计算机和网络现在各行业的企业都承受着越来越大的压力,需要从爆炸式增长的现有数据中提取出新的产业商机.对电信行业而言,全球手机用户数量已经达

大数据时代的四类数据和四类公司

大数据用于描述这样的数据组,其规模超出了日常软件在可容忍期限内获取.管理和加工数据的能力.一些网络技术领先的公司持续地投资于昂贵的大数据技术,成效显著.大数据使得创新型公司变成了经营新方法的率先接受者,经营更为成功. 当今世界,大数据无处不在,它影响到了我们的工作.生活和学习,并将继续施加更大的影响. 大数据用于描述这样的数据组,其规模超出了日常软件在可容忍期限内获取.管理和加工数据的能力.一些网络技术领先的公司持续地投资于昂贵的大数据技术,成效显著.大数据使得创新型公司变成了经营新方法的率先接

涨姿势:工业物联网与大数据融合的四个重点

有拥有数据时,他们是不会为原始数据买单的 1.我们不要太早地去设定框架 当企业在考虑采用工业物联网(IIoT)链接与工业大数据分析的时候,最好的方法是找到一个适合企业的案例或应用作为入口.这已经是一种较为普遍的惯性思维模式.但这似乎并不是我们想像中的那么简单,因为我们很容易发现,要找到非常通用的.适合众多企业的单一使用案例并不存在.相反地,这些应用场景却分布在制造业企业部门的各个传统驱动要素里面,包括能源.可靠性.质量.生产.设计等等.换句话来讲,就是工业物联网与大数据的结合没有固定的模式,没有