拨开云雾:破除大数据的四大常见误区

文章讲的是拨开云雾:破除大数据的四大常见误区,大数据概念自诞生以来,与之相关的争论之声就不绝于耳。如今似乎每一家软件供应商、咨询服务企业以及意见领袖都在以自己的理解为其进行“正确”定义。尽管笔者一直认为这种所谓“正确”的定义根本不存在,本文将专注于为大家破除最常见的大数据认识误区。

  误区一:所有数据都将尽在掌握

  从很多方面来看,我们目前生活的时代都前所未有的,过去从未面对过如此庞大的数据量。把MB和PB的概念抛在脑后吧,现在EB(即艾字节)级别的数据已经真实存在。笔者最近刚刚拜读了一份报告,文章指出生活在当今工业化社会的人们每天所接触并使用的信息比十五世纪时一个人一生所能接触的信息量还大。

  由于数据总量之庞大完全可以用深不可测形容,目前任何个人或者机构甚至无法对与特定主题相关的全部数据进行存储及检索,更不用说整体数据量了。没错,就连搜索巨头谷歌也不例外。谷歌公司的软件只会检测表面Web而非深层Web。有人估计后者的实际大小将达到前者的二十五倍。因此,当大家在搜索任何信息时,其列出的内容只占互联网实际信息总量的4%到6%。

  即使我们放低要求,也无法获取自己需要的某些有价值的信息,例如哪些特定客户曾经购买过我的作品——虽然Amazon以及巴诺商店这样的网站肯定保留了此类信息。我个人非常乐于结识自己的读者,然而即使是在大数据如火如荼的当下,这部分信息仍然遥不可及。总而言之,我们永远无法获得所有相关数据。

  误区二:需要掌握全部数据

  毫无疑问,庞大的数据量有助于解决问题,但千万不要误以为所有数据在业务决策方面都拥有其必要性。明智的大数据机构已经清醒地意识到,捕捉全部相关信息除了浪费资源之外毫无意义。

  似乎每天都有新的数据源出现,但可以肯定的是它们并非都具有实际价值。举例来说,电子邮件信息中通常包含重要的企业动态信息,明智的公司会以此为目标挖掘数据以评估员工情绪、猜测哪些员工有可能辞职。

  但这并不意味着所有电子邮件都有关注的必要。企业邮箱中往往充斥着大量垃圾邮件,浪费资源对其内容加以分析无疑是种愚蠢的行为。

  我们并不需要掌握全部数据。没错,数据的确是越多越好,但请别把时间浪费在无法完成的任务上。

  误区三:大数据拥有稳定的收益

  大家可能听说过这样一条格言:“我拥有自己能够处理的所有数据,只是缺乏足够的信息。”在之前的文章中,我曾经提到过利用外来数据真正指导业务决策是件极为困难的事情。我们甚至无法百分之百确定企业合并、新产品推出、公司合资乃至个别员工离职等状况。

  难道大数据不正是在帮助我们应对不确定性吗?这么说是没错,不过千万别把降低不确定性与消除不确定性混为一谈。也许未来这一愿望会变成现实,但至少目前还不行,而且在可以预见的未来实现的机会也很渺茫。

  对PB级非结构化数据进行分析能够有效帮助企业了解客户情绪。不过千万别误以为大数据能够消弭所有不确定性内容。生活与业务中总是存在难以预知的状况,只有做好多方面准备才能有备无患。

  误区四:大数据属于暂时性趋势

  我们可以认为目前大数据的代言人应该是Nate Silver——至少在他离开《纽约时报》之前的状态。这位知名博主兼统计学家曾在2012的美国大选中预测奥巴马将赢得九成民众的支持,最终结果也证实了他的判断。更令人惊讶的是,竞选期间的民意调查显示奥巴马与罗姆尼相比居于劣势。Silver的统计模型非常准确,他也因此成为人们心目中的预测达人。

  可以肯定的是,大数据与数据科学的概念将在未来几年中逐渐淡化,但其影响与处理流程仍将继续存在。我们不喜欢拿大堆专业术语和行话唬弄人,但那些坚信大数据属于暂时性趋势的专家实在是愚不可及。可以肯定的是今年我们共同产生及消耗的数据量必然要高于去年。

  大数据中的不确定因素永远无法彻底消除、这项技术也不足以回答所有问题。不过仅仅将其作为暂时性趋势加以处理很可能让你的企业陷入危局。现在各机构应该尽快意识到大数据的重要意义,一味抗拒只会让企业在大数据的洪流中处于被动并最终折戟沉沙。

作者:核子可乐 编译

来源:IT168

原文链接:拨开云雾:破除大数据的四大常见误区

时间: 2024-08-17 19:53:35

拨开云雾:破除大数据的四大常见误区的相关文章

云安全理解上的四大常见误区

最近,Forrester研究公司的副总裁兼首席分析师James Staten在"欧特克创新设计技术峰会"(Autodesk University,简称AU)上介绍了Forrester公司对于云计算领域的研究发现.欧派克举办的年度用户大会共吸引了8,000与会者到场,而云计算始终是大会的热门话题之一. 云计算提供的主要优点包括连接性.移动性.灵活性和无限计算的能力,这些都容易为人们理解.然而,对于云计算的定义及其关键属性,我们在理解上或许还有缺陷. 为此,Staten在讲话中努力阐明了云

大数据的5个误区:破解误区方能挖掘数据价值

大数据并不会给你带来大麻烦,事实上,大数据能够帮助你尽量减少业务问题,还能帮助你作出战略性决策.但如果不搞清楚对大数据的一些误区,也可能会给你带来不必要的麻烦.下面就让我们来看看大家对大数据的5个误区: #误区1:它是新的 作为一个企业用户,你仍然面对着相同的问题,有所改变的是你解决这些问题的方式,现在这些问题的解决办法来自一个不太可能的来源:你http://www.aliyun.com/zixun/aggregation/14294.html">的大数据.超过85%的企业正在执行或者准备

廖新波:医疗服务建设大数据平台四大因素

"大数据"作为一个必然的发展趋势已经被越来越多的与各行业一并提及,有的行业已经成熟应用,有的行业仍处在观望中.不可否认,大数据时代,一方面给企业带来巨大帮助与利益同时,也会带来螺旋上涨的成本.复杂性和风险.如何适应这个大数据时代,充分运用各种有用的数据,建立高效快捷的服务平台,这成为了各行业迫切需要解决的问题. 广东省卫生厅副厅长廖新波近日就医疗行业的大数据应用发表了自己的看法,在他看来,随着医疗信息数据的几何倍数增长,医院信息存储将越来越受到重视,医疗信息中心的关注点也将由传统&qu

太一星晨冯晓杰:浅析大数据的四大误区

[天极网服务器频道9月5日消息]目前大数据很火,可是具体到什么是大数据,各个厂商又有着不同的答案.我们知道,行业内依靠四个特征界定大数据:Volume,体量巨大,PB级别;Variety,数据类型繁多;Veracity,价值密度低;Velocity,处理速度快.简而言之,需要从不同维度抓取海量数据并将其快速转变为有序的可用信息. 目前阶段,大数据解决的主要问题分为3类:拓展传统的商业智能(BI)领域.以前针对大数据量的统计.关联分析.趋势预测由抽样变成全量分析.将数据回流到各种报表;业务流程改.

运营商发展大数据的四大误区

在大数据概念迅速普及.产业快速发展的今天,运营商仍以传统的通信思维看待大数据业务的发展,导致其在发展中陷入了某些误区. 误区1:大数据项目应当"做成产品" 最容易形成这种误区的就是运营商的政企服务机构.在他们的工作中,有一大部分的时间是用来联合设备厂商或服务支撑方满足客户各种需求,尤其是在一些ICT项目中,"运营商+服务方"联合投标的模式屡见不鲜. 在这种背景下,运营商习惯于打包提供"整体解决方案"的模式.这里面一个非常核心的点是:运营商要在摸清

大数据的四大维度深度解析

数量也许是与大数据最相关的特征,指企业为了改进企业中的决策而试图利用的大量数据.数据量持续以前所未有的速度增加涵盖这四个维度有助于定义和区分大数据: 数量:数据量.数量也许是与大数据最相关的特征,指企业为了改进企业中的决策而试图利用的大量数据.数据量持续以前所未有的速度增加.然而,真正造成数据量"巨大"的原因在不同和行业和地区各有不同,而且没有达到通常引用的PB级(petabyte)和ZB级(zetabyte).超过一半的受访者认为数据量达到Terabyte和Petabyte之间才称为

大数据营销四大模式 战争未开结局已定

最近关于四种大数据营销模式的文章成为营销圈内热点,文章根据广告与大数据之间的关联和丰富度,将基于数据的营销进行以下分类:1.关联模式,根据结果进行数据关联分析,如传统超市行业将纸尿裤与啤酒一起促销的经典案例:2.精准定向模式,根据用户的精准信息进行精准化推荐,也是社交媒体最常用的营销手段:3.动态调整模式,将用户行为列入大数据维度,以动态的运算结果来实现营销效果最大化,代表企业如谷歌:4.粉丝爆炸器模式,跨平台打通账户体系,以海量用户和数据维度刻画用户脸谱,为企业寻找与其匹配用户,代表企业有阿里

浅析大数据的四大误区

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 近年来,随着云计算和大数据的迅猛发展,已然让"大数据"和"云计算"成为了当下最时髦的词汇.从IT界到.金融界,再到物流界.营销界,乃至医疗界.教育界--无论是界内界外人士几乎都已快形成"言必称云"."言必称大数据"的口头禅. 但如果真遇到一个"较真儿的",发出这样的提

BigData非万能!揭秘大数据四大弊端

大数据与用户隐私难以兼顾 阿里巴巴创始人马云说:"用户没搞清PC时代的时候,移动互联网来了:没搞清移动互联网的时候,大数据时代来了."他的话很好地佐证了2013年以来"大数据"一词在业界的热度. 不可否认的是,一直被宣扬的大数据时代似乎真的到来了.在众星捧月的光环下,"大数据"如同一个香饽饽,人人都想分一杯羹.那么,大数据真如我们想象的那么美好? 笔者以为,在信息时代的今天,对浩瀚繁杂的数据进行整理判断是有必要的,数据中也确实存在大量的宝藏.但是