关于大数据的五大陷阱

大数据庞大而又复杂。这不仅体现在信息的积累上,而且体现在其对经营策略的影响上。据IDC预测,2018年,全球业务分析开支将高达896亿美元。成功利用大数据已成为众多企业的关键要素,其中包括制定平台战略,无论它是“数据中心”,还是“数据平台”亦或是“数据湖”。

很多还未实施大数据项目的企业正在评估他们2016年的数据战略,其它公司则在审视它们现有的项目,探索利用分析改善经营和增加收入的新方法。事实上,大数据并不容易做到。据Gartner预测,直到2018年,由于技能和集成上的问题,70%的Hadoop系统可能将无法满足成本节约和创收目标。因此,如何才能把大数据“物尽其用”变得至关重要。以下是一些您应该规避的最常见的大数据陷阱:

陷阱1:缺乏企业平台或以数据为本的架构

Hadoop系统通常是以具体应用的原型身份进入企业的,然后逐渐成为重心,吸引越来越多的数据,并很快成为一个巨兽——由一小撮“数据科学家”领导的数字运算引擎。企业必需从一个企业平台策略和一个以数据为本的架构开始,打破在各种规模的企业中盛行并削弱企业力量的数据孤岛。大数据需要能够在一个完全可扩展的分布式环境中实施并行处理,并尽可能地减少阻力。与传统数据库系统或应用孤岛不同,在一个以数据为本的架构或企业平台中,数据不受限制,不绑定模式,也没有被锁定。

陷阱2:缺乏“数据湖”愿景

对于企业而言,“数据湖”具有改变游戏规则的变革性意义。它是一个数据集中目的地,可提供企业急需的各类型的数据集成,其中包括结构化、非结构化和半结构化数据以及内部数据、外部数据和合作伙伴数据。数据湖存储库通过“大数据经济学”
创造巨大效益,与传统解决方案相比,它可将数据存储和分析的成本降低30到50倍。
数据湖能够在任何数据转换或模式创建之前捕获“原始数据”,并提供自动快速摄取机制。在向企业数据接入、无缝数据访问、迭代算法开发和敏捷开发演进的过程中,数据湖发挥着举足轻重的作用。

陷阱3:没有针对数据增长和成熟度进行规划

当数据湖成为默认的数据目的地时,管理和细粒度安全性从一开始就变得异常重要。元数据访问及存储、数据沿袭及标注会成为内置,而原始数据和不同阶段的转换数据仍能毫无冲突地共存。各类应用可以通过Hadoop使用彼此的数据。外部数据可以根据明确的处理/分析要求被屏蔽或集成,所有数据集能够在数据湖中和睦相处,这提高了数据的可用性,缩短了应用部署时间,并可支持无限的数据扩展和增长。

陷阱4:分析小样本数据集

很多人认为数据不需要被集成,人们可以使用小样本数据集,这是一种危险的错误观念,因为这会导致分析结果常常被延展到较大的数据集,而且不考虑差异,少则造成误导,严重的话甚至可能导致极度扭曲的结果。这通常被称为小样本数据集分析魔咒。例如,当您使用小样本数据集时,您可能会遇到很多离群数据或异常数据。如果使用的是小样本数据集,您无法知道异常数据在较大的数据集中是否具有结构性,或离群数据是否处于一种具备明确特征的模式。

陷阱5:采集更少的数据,依赖更高级的算法

另一个错误观念是:高级和复杂的算法能够解决所有问题。如果是这么简单的话,生活就太美好了。由于是在逻辑进程上运行,计算机将无条件地处理意外、甚至荒谬的输入数据,并生成无用、荒谬的输出数据。在信息与计算机科学中,当未被净化的数据被输入到复杂算法中,被称为“垃圾进入/垃圾输出”。缺失/稀疏的数据、空值和人为错误必须被清除。IT人员应避免依赖未经验证的假设或弱关联,而去尽可能多地采集数据,让数据自己说话。在部署数据平台时,这一点非常经济高效。

制定一个成功的大数据策略

如果将规避以上陷阱做为动机,从一开始就把事情做对,即可事半功倍,帮助企业更快、更好地利用大数据。

本文转自d1net(转载)

时间: 2024-08-26 06:26:19

关于大数据的五大陷阱的相关文章

美媒:关于“大数据”的五大误解

文章讲的是美媒:关于"大数据"的五大误解,美国<外交政策>杂志网站5月9日刊登微软研究院首席研究员.麻省理工学院公民媒体中心客座教授凯特·克劳福德的一篇文章,文章说,"大数据"是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法. 文章说,这个术语一般用来描述对海量信息进行分析,从而发现规律.收集有价值的见解和预言复杂问题答案的技巧与科学.它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是

企业实施大数据的五大关键(更新版)

刚刚过去的2016年,是大数据从概念到务实落地的一年.在过去的一年内,互联网行业.电信行业.金融行业.房地产行业.汽车行业.娱乐行业.教育行业.零售行业.能源行业.医药行业.政府机关等都在不同程度的接触和实施大数据.很多正在实施大数据的企业或机构并不成功,为什么?他们实施大数据都存在共同的问题,最为典型和严重的是三个问题是: 问题一:业务部门没有清晰的大数据需求和规划 很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以提出大数据的准确需求. 由于业务部门需求不清晰,大数据部门

详解IBM大数据应用五大方向

摘要:IBM全球副总裁王阳博士详解IBM大数据应用的五大方向:探索大数据发现和业务相关的兴趣点.全面了解客户优化每次客户互动.分析海量机器数据提高运营效率.利用IT新技术从现有数据仓库中获得更多价值并降低成本.分析大数据所有类型和来源强化传统安全方案. IBM公司2013年中在北京正式发布了PureData System for Hadoop系统.新增BLU加速技术的DB2  10.5.物联网数据分析平台MessageSight以及定制Watson (Watson Engagement  Adv

大数据的五大误区及其破解之道

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     有些人认为,"大数据"这一词汇不过是企业营销时的大肆炒作.但即使是那些接受大数据概念的人,也需要消除某些大数据误区. 全球领先的信息技术研究和咨询公司Gartner指出,大肆宣传大数据概念,使企业在选择适当的行动方案时,受到更多困扰,但对消除一些仍存在的误区却毫无帮助. 例如,80%的数据是非结构化的,这是错误的:又如高级分析功能只是更复

警惕大数据中的“陷阱”

导语:关于社会大数据的研究近年来不断扩大.繁荣,发展为集社会学.计算机学.物理学.心理学等多个学科于一身的交叉学科.与此同时,新的数据获得渠道.数据处理方法和工具也不断被研究者们引入社会研究领域.然而,正是因为该领域的快速兴起,社会大数据的研究方法往往未能得到足够的重视和讨论.未成形的方法规范.模糊的样本收集范围及边界等诸多问题导致类似研究难以复制,更难以像传统社会学研究方法一样可以通过实证研究结果的梳理总结得出系统的理论.本期[大数据与社会]将梳理总结关于大数据研究"陷阱"的文章,介

走向成熟!2017年大数据发展趋势五大预测

2016年已经过去,这一年中大数据领域风云变幻,亦留下众多趋性迹象供我们探究与参考. 以此为基础,我们整理出2017年的五项大数据发展趋势与预测结论. 1.云端大数据成为主流 2016年是云计算全面普及的一年.尽量初期企业客户曾就隐私与安全等问题选择观望,但随着云环境在可用性.使用成本以及性能表现等优势领域的全面冲击,人们最终开始立足于云进行大数据项目测试--主要通过构建新应用等新建型项目.在2017年,相信这一趋势还将继续保持并放大,并推动云计算与混合数据架构的快速成熟.我们认为,最终企业客户

关于大数据的五大见解

图尔克是彭博http://www.aliyun.com/zixun/aggregation/17477.html">风险投资公司的总经理,这是一家彭博新闻社的孵化和投资机构,创办了纽约市的数据业务Meetup网站. 除举办聚会,并为彭博寻求投资与合作机会,图尔克还负责帮助彭博社经营企业业务.最近,他率先推出的彭博研究所,想成为全球领先的在线教育和企业财务人员招聘业务. 在2008年加入彭博社作为风险投资公司主要负责人之前,他在甲骨文担任高级主管.他在2005年加入甲骨文,彼时该公司收购了T

关于大数据的五大迷思

目前,大量企业拥有海量的客户信息,包括在线交易记录及社交媒体数据等.但是,成功的关键是要能够从不同渠道和来源的数据中洞察价值,而具备收集并分析这些数据能力的企业将在竞争中拥有显著优势. 但是,数据的非结构化已经成为企业的重大挑战.企业已经熟悉收集和分析结构化数据,如传统的销售年报信息.目前,许多企业都困惑于如何收集和分析更多类型的多结构化数据,如网络日志.无线电射频识别(RFID).传感器网络.社交网络.互联网文本和文件.互联网搜索索引.详细通话记录.医疗记录.摄影档案.视频档案以及电子商务交易

大数据可能的陷阱?

主要来自于三个方面的考虑:1.对于众多IT厂商认为的"潜在用户"来说,是不是已经有足够的数据积累,可以实现在这个前提下的数据战略?2.数据的衍生价值往往聚焦于企业的http://www.aliyun.com/zixun/aggregation/13784.html">业务决策乃至战略决策,这些决策真的来源于数据吗?实际上更多的是企业家的直觉与思维,数据的作用往往是用来证实这些直觉有什么偏差.3.厂商们习惯通过"概念营销"来转移用户的视线,将过往的问题