尽信书不如无书大数据分析要去伪存真

　　大数据去伪存真的真正价值

　　大数据行业发展速度令人瞠目结舌，大数据分析为企业带来巨大价值，已经成为企业决策新助手。但中国有句古话“尽信书不如无书”，其实大数据分析没有你想象的那么完美。这主要是由于大数据中并不是所有的数据对用户都有价值，一些垃圾信息甚至对数据价值带来深深的伤害，如何对收集的数据进行筛选、去伪存真，才是大数据真正实现价值的关键。

　　何为垃圾信息?

　　什么是垃圾信息，简单的说，就是那些混在大量有用的信息中的无用信息，有害信息，以及对大数据分析结果带来影响的信息。

　　但垃圾信息并不是绝对的，可能这种信息对于用户甲是无用的，对无分析结果是有害的，但是对于用户乙来说，可能就是有用的信息。所以不同行业的用户要学会区分自己数据中的信息哪些是垃圾信息，是无用的。

　　常见的垃圾信息：

　　在我们的日常生活中，各种垃圾信息可以说是无处不在。例如，当下网络上拥有一大批的网络水军，这些人产生了大量的垃圾信息，对大数据分析结果造成恶劣的影响。在去年上映的《X的盛宴》，宣传方雇佣了大批水军进行刷分，造成了评分很高，但是观后的口碑很差，最后主办方不得不出面道歉息事宁人。这些网络水军的数据就是垃圾信息。

　　网络水军(图片来自xinmin)

　　当然类似的例子还很多，在前几年淘宝开店火爆的时候，有专门为卖家刷钻的工具，这样的结果造成了很多店家虽然钻的级别很高，但是产品以及售后服务名不副实。微博用户刷粉盛行一时，很多网络大V的真实粉丝很少;论坛刷回复贴，营造论坛很火的局面;电商网站促销期间刷交易单数。等等，这些垃圾信息都深深伤害了数据的价值。

　　大数据市场当前情况：

　　不可否认的是大数据拥有巨大的价值，但是就目前情况看来，大数据更像是镜中花水中月，看似美好，实则言过其实。在浩如烟海的数据中心去发掘对用户有价值的数据，就好比在垃圾场捡拾宝贝一样，就好比在沙漠中寻找宝石一样。

　　那么，如何从大量数据中心获得对用户有价值的信息呢?下面让我们看一下当前人们是如何剔除垃圾信息，寻找数据价值。

　　如何剔除数据中的垃圾信息

　　剔除数据中的垃圾信息的作用?

　　为何要剔除这些垃圾信息你?其中一点上文中我们已经提到，这些垃圾信息影响我们的数据分析结果，让数据价值难以体现，其实这只是垃圾信息的一种危害。同时，过多的垃圾信息还会造成客户基础设施的瓶颈，给系统带来负担，并增添存储、主机等设备成本，大大增加企业用户的运维成本。那么如何去除这些垃圾信息呢?

　　企业存储架构

　　如何剔除数据中的垃圾信息?

　　大数据相比于传统的数据有着一个重要的区别，那就是非结构化数据的出现，这让传统的按照原本特定的规则和参数剔除垃圾信息的方式失去了用武之地。大数据时代需要新的垃圾信息剔除方式。但如今大数据正处于发展出去，各大IT厂商虽然都竞相推出了大数据解决方案，但是针对垃圾信息剔除方面的方法几乎没有。

　　笔者认为不妨从以下两个方面入手：

　　人力方面:如今的大数据分析方面缺乏只能，这样很多解决方案并不能真正的实现智能分析，而人工就要承担其中的智能部分。有些数据分析问题会被发送于负责相应问题的专员，由相关的大数据分析专业人员提供问题的解决方案。

　　缺少大数据人才

　　但如今，针对大数据分析方面的专业人才极其缺乏。据麦肯锡调查，至2018年，美国市场将出现近20万深度大数据分析的专业人才、150万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累，还需要有编程、业务知识等综合能力，是稀缺的复合型人才;而对于聘用企业来说，也很难有合适的职位适合此类人才。

　　IT厂商方面：除了在人力方面加大力度，培训专业的人才。还需要更多的大数据厂商来提供更加智能的解决方案，光靠人力显然是不够的。

　　在未来面对这么大一堆的垃圾，这将是大数据厂商的一个重要挑战。厂商们需要确立新的数据标准，帮助用户更加深入的分析数据，能够智能分辨数据的级别，自动剔除重复的、同一IP地址的或者恶意干扰的数据，这样才会大大加快数据分析的速度。从无到有，有的时候可能就是一点点，然后需要一点点时间，逐步的积累，这是对大数据厂商的长期考验。

　　那么是否是有了大数据就万事俱备了呢?

　　数据去伪存真是为了增强数据的有效性，但同时也要注意数据的时效性，数据的时效性同样决定了大数据分析结果。我们需要根据不同的需求来确认数据的时效性，过时的东西我们即使分析出来了也不会我对我们的决策产生影响。

　　大数据分析需要注意时效性

　　例如，对于投资行业来说，这一时效性是至关重要的，投资行业需要根据市场上的数据快速的分析出结果，分析结果出现的越快，给用户带来的利益可能就更大，相反的话甚至可能造成资金的损失。

　　以人为本大数据应以辅为主

　　大数据分析能够为我们最有价值的信息，能够帮助我们下达最有利于公司发展的觉得。但是对于用户来说，完全依靠大数据分析却并不可行。毕竟我们分析的数据都已经是发生的事情，大数据分析结果只能够给我们提供参考，但是在前变化万花的市场，还需要有一个精明的决策者，依靠大数据，一锤定音，决定企业的发展。

　　大数据分析并不是神，其只能给我们提供参考，帮我我们分析过去的发生的事情的规律，对我们未来进行预测，但是如今的大数据分析依然不够智能，很多因素大数据分析并不能考虑到。例如，当年诺基亚和摩托罗拉称霸手机市场的时候，我们收集的信息也全部是关于这两个品牌的，但是谁能够预测到安卓手机和苹果手机的崛起速度。

　　综上所述，在企业中，大数据在企业决策方面更多的是扮演辅助的角色，而不是最终的决策者。大数据中的数据包罗万象，并不是简单的数据分析就能够得多最有利的结果的。在激烈的市场竞争中，大数据分析会越来越重要，但却依然是人类的辅助者。

时间： 2024-10-06 03:10:44

尽信书不如无书大数据分析要去伪存真

尽信书不如无书大数据分析要去伪存真的相关文章

《Spark大数据分析：核心概念、技术及实践》大数据技术一览

《Spark大数据分析：核心概念、技术及实践》Scala编程

《Spark大数据分析：核心概念、技术及实践》Spark Core

《Spark大数据分析：核心概念、技术及实践》一3.9　共享变量

《Spark大数据分析：核心概念、技术及实践》一第2章 Scala编程

《大数据分析原理与实践》一一1.5　全书概览

大数据分析的光荣与陷阱——从谷歌流感趋势谈起

数据的局限：大数据分析不能告诉你什么

大数据分析需要什么样的基础技能？高等数学?

尽信书不如无书 大数据分析要去伪存真

尽信书不如无书 大数据分析要去伪存真的相关文章

尽信书不如无书大数据分析要去伪存真

尽信书不如无书大数据分析要去伪存真的相关文章