尽信书不如无书 大数据分析要去伪存真

  大数据去伪存真的真正价值

  大数据行业发展速度令人瞠目结舌,大数据分析为企业带来巨大价值,已经成为企业决策新助手。但中国有句古话“尽信书不如无书”,其实大数据分析没有你想象的那么完美。这主要是由于大数据中并不是所有的数据对用户都有价值,一些垃圾信息甚至对数据价值带来深深的伤害,如何对收集的数据进行筛选、去伪存真,才是大数据真正实现价值的关键。

  何为垃圾信息?

  什么是垃圾信息,简单的说,就是那些混在大量有用的信息中的无用信息,有害信息,以及对大数据分析结果带来影响的信息。

  但垃圾信息并不是绝对的,可能这种信息对于用户甲是无用的,对无分析结果是有害的,但是对于用户乙来说,可能就是有用的信息。所以不同行业的用户要学会区分自己数据中的信息哪些是垃圾信息,是无用的。

  常见的垃圾信息:

  在我们的日常生活中,各种垃圾信息可以说是无处不在。例如,当下网络上拥有一大批的网络水军,这些人产生了大量的垃圾信息,对大数据分析结果造成恶劣的影响。在去年上映的《X的盛宴》,宣传方雇佣了大批水军进行刷分,造成了评分很高,但是观后的口碑很差,最后主办方不得不出面道歉息事宁人。这些网络水军的数据就是垃圾信息。

  网络水军(图片来自xinmin)

  当然类似的例子还很多,在前几年淘宝开店火爆的时候,有专门为卖家刷钻的工具,这样的结果造成了很多店家虽然钻的级别很高,但是产品以及售后服务名不副实。微博用户刷粉盛行一时,很多网络大V的真实粉丝很少;论坛刷回复贴,营造论坛很火的局面;电商网站促销期间刷交易单数。等等,这些垃圾信息都深深伤害了数据的价值。

  大数据市场当前情况:

  不可否认的是大数据拥有巨大的价值,但是就目前情况看来,大数据更像是镜中花水中月,看似美好,实则言过其实。在浩如烟海的数据中心去发掘对用户有价值的数据,就好比在垃圾场捡拾宝贝一样,就好比在沙漠中寻找宝石一样。

  那么,如何从大量数据中心获得对用户有价值的信息呢?下面让我们看一下当前人们是如何剔除垃圾信息,寻找数据价值。

  如何剔除数据中的垃圾信息

  剔除数据中的垃圾信息的作用?

  为何要剔除这些垃圾信息你?其中一点上文中我们已经提到,这些垃圾信息影响我们的数据分析结果,让数据价值难以体现,其实这只是垃圾信息的一种危害。同时,过多的垃圾信息还会造成客户基础设施的瓶颈,给系统带来负担,并增添存储、主机等设备成本,大大增加企业用户的运维成本。那么如何去除这些垃圾信息呢?

  

  企业存储架构

  如何剔除数据中的垃圾信息?

  大数据相比于传统的数据有着一个重要的区别,那就是非结构化数据的出现,这让传统的按照原本特定的规则和参数剔除垃圾信息的方式失去了用武之地。大数据时代需要新的垃圾信息剔除方式。但如今大数据正处于发展出去,各大IT厂商虽然都竞相推出了大数据解决方案,但是针对垃圾信息剔除方面的方法几乎没有。

  笔者认为不妨从以下两个方面入手:

  人力方面:如今的大数据分析方面缺乏只能,这样很多解决方案并不能真正的实现智能分析,而人工就要承担其中的智能部分。有些数据分析问题会被发送于负责相应问题的专员,由相关的大数据分析专业人员提供问题的解决方案。

  

  缺少大数据人才

  但如今,针对大数据分析方面的专业人才极其缺乏。据麦肯锡调查,至2018年,美国市场将出现近20万深度大数据分析的专业人才、150万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累,还需要有编程、业务知识等综合能力,是稀缺的复合型人才;而对于聘用企业来说,也很难有合适的职位适合此类人才。

  IT厂商方面:除了在人力方面加大力度,培训专业的人才。还需要更多的大数据厂商来提供更加智能的解决方案,光靠人力显然是不够的。

  在未来面对这么大一堆的垃圾,这将是大数据厂商的一个重要挑战。厂商们需要确立新的数据标准,帮助用户更加深入的分析数据,能够智能分辨数据的级别,自动剔除重复的、同一IP地址的或者恶意干扰的数据,这样才会大大加快数据分析的速度。从无到有,有的时候可能就是一点点,然后需要一点点时间,逐步的积累,这是对大数据厂商的长期考验。

  那么是否是有了大数据就万事俱备了呢?

  数据去伪存真是为了增强数据的有效性,但同时也要注意数据的时效性,数据的时效性同样决定了大数据分析结果。我们需要根据不同的需求来确认数据的时效性,过时的东西我们即使分析出来了也不会我对我们的决策产生影响。

  大数据分析需要注意时效性

  例如,对于投资行业来说,这一时效性是至关重要的,投资行业需要根据市场上的数据快速的分析出结果,分析结果出现的越快,给用户带来的利益可能就更大,相反的话甚至可能造成资金的损失。

  以人为本 大数据应以辅为主

  大数据分析能够为我们最有价值的信息,能够帮助我们下达最有利于公司发展的觉得。但是对于用户来说,完全依靠大数据分析却并不可行。毕竟我们分析的数据都已经是发生的事情,大数据分析结果只能够给我们提供参考,但是在前变化万花的市场,还需要有一个精明的决策者,依靠大数据,一锤定音,决定企业的发展。

  大数据分析并不是神,其只能给我们提供参考,帮我我们分析过去的发生的事情的规律,对我们未来进行预测,但是如今的大数据分析依然不够智能,很多因素大数据分析并不能考虑到。例如,当年诺基亚和摩托罗拉称霸手机市场的时候,我们收集的信息也全部是关于这两个品牌的,但是谁能够预测到安卓手机和苹果手机的崛起速度。

  综上所述,在企业中,大数据在企业决策方面更多的是扮演辅助的角色,而不是最终的决策者。大数据中的数据包罗万象,并不是简单的数据分析就能够得多最有利的结果的。在激烈的市场竞争中,大数据分析会越来越重要,但却依然是人类的辅助者。

时间: 2024-10-06 03:10:44

尽信书不如无书 大数据分析要去伪存真的相关文章

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都与大数据

《Spark大数据分析:核心概念、技术及实践》Scala编程

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第2节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. Scala编程 Scala是当前热门的现代编程语言之一.它是编程语言界的凯迪拉克.它是一门强大且优美的语言.学会了它,对你的职业生涯大有裨益. 用不同的编程语言都可以编写大数据应用程序,比如Java.Python.C++.Scala等.Hadoop本身就是用Java编写的.尽管大多数的

《Spark大数据分析:核心概念、技术及实践》Spark Core

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. Spark Core Spark是大数据领域最活跃的开源项目,甚至比Hadoop还要热门.如第1章所述,它被认为是Hadoop的继任者.Spark的使用率大幅增长.很多组织正在用Spark取代Hadoop. 从概念上看,Spark类似于Hadoop,它们都用于处理大数据.它们都能用商用硬

《Spark大数据分析:核心概念、技术及实践》一3.9 共享变量

 本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第3章,第3.9节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问"华章计算机"公众号查看. 3.9 共享变量 Spark使用的架构是无共享的.数据分布在集群的各个节点上,每个节点都有自己的CPU.内存和存储资源.没有全局的内存空间用于任务间共享.驱动程序和任务之间通过消息共享数据. 举例来说,如果一个RDD操作的函数参数是驱动程序中变量的引用,Spark会将这

《Spark大数据分析:核心概念、技术及实践》一 第2章 Scala编程

  本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第2章,第2.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问"华章计算机"公众号查看. 第2章 Scala编程 Scala是当前热门的现代编程语言之一.它是编程语言界的凯迪拉克.它是一门强大且优美的语言.学会了它,对你的职业生涯大有裨益. 用不同的编程语言都可以编写大数据应用程序,比如Java.Python.C++.Scala等.Hadoop本身就是用J

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大.算法演化.看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴.本文认为,为健康发展大数据产业,我国需要防范大数据自大风险.推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度.审慎评估大数据质量等方面的努力. ◆ ◆ ◆ 一.谷歌流感趋势:未卜先知? "谷歌流感趋势"(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证.2008年11月谷歌

数据的局限:大数据分析不能告诉你什么

咨询师Barry Devlin介绍了一些人们因为统计数据分析不当而误解风险的案例,同时阐述了为什么业务决策不能完全由数据驱动.他提醒企业要清醒认识数据科学家的阴谋,同时接受普通业务人员的天真想法. 大数据分析 大数据分析的拥护者竭尽全力地鼓吹"数据驱动",明智的人应该谨慎对待,并明确两个问题.一,业务人员在制定特定决策时是否真正理解相关数据,是否曾经以实用且可行的方式向管理层展示了这些数据?二,是否所有决策都有必要在收集"所有数据"之后自动完成? 在<认清风险

大数据分析需要什么样的基础技能?高等数学?

问题描述 大数据分析需要什么样的基础技能?高等数学? 今天有个朋友说他手上有某大公司的数据分析职位,(我之前在游戏公司做过数据分析),所以他向我推荐这个职位,我感觉不可上手,跟我之前做的数据分析感觉根本就是两回事因为我之前搞的也就是做一些数据报表和曲线图,他介绍的偏向于大数据挖掘,可能要懂很多算法,所以..这就是这个问题所在了,我想问一下有经验的大牛们,数据分析,数据挖掘是不是需要高数基础知识,我上学时高数学得不怎么好,也忘得差不多. 解决方案 主要是概率论和数理统计,然后是人工智能和数据挖掘.