有关大数据的6大误区

你的组织是否在考虑分析数据的最佳方式?以下是在你采用大数据分析之前,需要注意的有关大数据的6个误区。

云计算的应用,更快的数据处理速度,以及从物联网输入大量的数据,这些意味着,企业现在正在收集前所未见的数据量。现在大数据比以往任何时候都大。但是如何组织、处理和理解数据仍然是许多组织面临的一个主要挑战。

你的公司是否仍然在努力理解大数据是什么,以及如何管理吗?这里有6个关于大数据的误区,行业专家将帮助你把真相从虚构的大数据领域中分离出来。

(1)大数据意味着“很多”数据

目前,大数据已经成为一个流行词。但人们通常对它真正的含义还是不清楚。有些人将大数据简单地认为是大量的数据。但是,这并不完全正确,它比这稍微复杂一些。大数据是指一个数据集,无论是结构(如数据表)或非结构化(如元数据从电子邮件)结合的数据,如社会媒体分析或物联网数据,形成一个更大的故事。大数据故事说明组织很难用传统的分析技术来捕获发生的趋势。

丰田研究院的数据研究总监吉姆·阿德勒表达了一个很好的观点:“数据也有质量。这就像水一样:玻璃容器中的水是非常易于管理。但是,如果混杂在洪水中,这将是压倒性的灾害。”他说,“在数据分析系统中,工作在一台机器的的数据将被冲走时,其数据规模将增长100或1000倍。所以,当然,原型虽小,但其架构却很大。”

(2)数据需要清洁

“最大的误区就是你必须要有干净的数据进行分析。”BeyondCore公司首席执行官阿里吉特·森古普塔说,“没有人有干净的数据,必须将数据进行清理,否则分析是行不通的。这是一个疯狂的想法。你要做的就是进行一个足够好的分析。你要分析所有的数据,尽管这些数据是肮脏的,这只说明你有数据质量问题。我可以告诉你一些模式,尽管数据存在质量问题,但完全可以进行正常分析。现在,你可以集中进行数据质量工作,只是提高数据可以得到稍微好一点的洞察力。”

InOutsource商业智能和分析总监梅根·布茨梅因对此表示赞同,“很多时候,企业就会将这些工作能拖就拖,因为他们认为数据是不干净的,这是没有必要的。部署的分析应用程序将可以找到数据的薄弱环节,”她说。“一旦这些问题已经确定,清理计划可以投入到位。然后,分析应用程序可以利用一种机制,加大清理力度,并监测进展情况。”

布茨梅因说。“一旦你把这些数据整合在一起,你将在一个应用程序中赋予它生命的视觉,你可以看到这些汇集在一起的数据的关联,你会很快看到你的资料不足。”她说,“你可以看到数据的问题在于要提供一个清理数据的基准。”

(3)等待,让你的数据完美

你不应该等待清理你的数据,这里还有一个原因,森古普塔说,“在你完全清除数据之后,这可能需要三个月的时间,然而三个月后,这些数据已经陈旧过时了。”因此,这些信息将不再适用。

森古普塔表示,第一州际银行的乔希·巴特曼在会议提出了一个重要观点。乔希展示了他是如何运行分析,发现问题,分析变化,重新运行分析的。他说,“你看,我的分析时间只有大约四到五分钟。所以,如果我可以运行分析,发现问题,解决问题,再重新进行分析,并在四、五分钟后查看报告,改变如何处理分析的方法。”

森古普塔用编码来比喻那些旧方式。“我的一切都是正确的,然后我进行编码。但现在,每个人进行编码都不太灵活。”他说。“你写好程序之后,你必须要测试它,并查看如何能使它更好,那么等它变得更好之后。世界发生了变化,人们仍然采用的是旧的做事方法。”

(4)数据湖

数据湖是持有大量的原始结构化和结构化数据的松散的存储库,经常在大数据的背景下提到。

唯一的问题是,尽管他们是如何经常被引用,但它们却不存在,阿德勒说,“一个组织的数据不被倒入一个数据湖中。这是精心策划的一个部门的数据库。鼓励集中使用专业知识。他们还提供了良好的数据治理和合规性所需的问责性和透明度。”

(5)分析数据是昂贵的

如果假定在数据分析工具涉及一些费用的话,你可能会害怕获得数据。而可以告诉你的有好消息是,如今有许多免费的数据工具,任何人都可以开始使用这些工具来分析大数据。

同时,森古普塔表示,当今云计算的低成本意味着“你真的可以做那些以前从来不可能实现的的事情。”

(6)机器算法将取代人类分析

森古普塔认为在分析大数据方法有一个有趣的二分法。“有人说,解决这个问题需要成千上万的数据科学家来分析解决,随后,又有人说,采用机器学习就可以做到这一切。这将是完全自动的。”

但是,桑古塔并不认为这些都是合适的解决方案。“没有足够的数据科学家,成本将快速上升。”他说,“此外,企业用户有多年的域名登录经验,并有着对他们业务的直觉。当你请来一个数据科学家,并认为他会搞定这些工作,并告诉你该怎么做。这实际上创造了一个确切的错误,数据科学家们往往无法无法足够了解企业的业务。”

“完美”的数据科学家,是那些准确理解具体业务如何运作,以及其数据是如何工作的,这是一个误区。森古普塔说,“这样的人根本不存在。”

在现实中,森古普塔说,“大多数数据科学项目实际上没有得到实施,因为它是如此艰难,需要几个月得到完成,而当它完成的时候,你所关心的问题是已经陈旧过时了。”

但是,也有过于依赖机器学习问题。“机器学习只是给出一个答案,但并没有解释。它告诉人们该怎么做,而不是为什么要那样做,”他说。“人们不喜欢别人告诉他该怎么做,尤其是神奇的机器。”他说,其关键是不只是答案,而是其解释和建议。

一方面,他说,数据科学家将变得越来越专业化,而这是真正困难的问题。“想一想各机构和企业开始建设了数据处理部门和一些处理部门。世界500强企业也有数据处理部门“或数字加工部门。但他们基本上变成了Excel,Word和PowerPoint。”尽管如此,人们仍然是数据和数字处理方面的专家。

“如果我去摩根士丹利,相信我,那些数据处理和数字处理方面的专家仍然存在。他们只是有着不同的名称和不同的工作,但在真正的情况下,这些人仍然存在,但80%-90%的专家已经转移到Excel,Word和PowerPoint方面,这是全球在大数据方面应该发展的主要原因。”

本文转自d1net(转载)

时间: 2024-09-18 02:42:34

有关大数据的6大误区的相关文章

拨开云雾:破除大数据的四大常见误区

文章讲的是拨开云雾:破除大数据的四大常见误区,大数据概念自诞生以来,与之相关的争论之声就不绝于耳.如今似乎每一家软件供应商.咨询服务企业以及意见领袖都在以自己的理解为其进行"正确"定义.尽管笔者一直认为这种所谓"正确"的定义根本不存在,本文将专注于为大家破除最常见的大数据认识误区. 误区一:所有数据都将尽在掌握 从很多方面来看,我们目前生活的时代都前所未有的,过去从未面对过如此庞大的数据量.把MB和PB的概念抛在脑后吧,现在EB(即艾字节)级别的数据已经真实存在.笔

避免投资浪费 认清大数据的10大误区

大数据在当前的科技新闻中占据了主导地位,它被吹捧为一切问题的可能的解决方案,从入侵检测与预防欺诈,到治疗癌症和设置最优的产品价格. 但我们定义大体量.多格式.高速度的大数据,并不是能够搞定每一个问题的灵丹妙药.事实上,如果公司迷信周围的一些大数据的神话,可能在错误的方向越走越远,浪费大量的时间和金钱,影响公司的市场竞争地位,或者损害公司的声誉. 以下是企业应当知道的围绕大数据的十个最大的误区,了解他们将有助于有效地避免大数据的消极影响,并真正获得大数据带来的商业价值. 避免投资浪费,认清大数据的

大数据的5个误区:破解误区方能挖掘数据价值

大数据并不会给你带来大麻烦,事实上,大数据能够帮助你尽量减少业务问题,还能帮助你作出战略性决策.但如果不搞清楚对大数据的一些误区,也可能会给你带来不必要的麻烦.下面就让我们来看看大家对大数据的5个误区: #误区1:它是新的 作为一个企业用户,你仍然面对着相同的问题,有所改变的是你解决这些问题的方式,现在这些问题的解决办法来自一个不太可能的来源:你http://www.aliyun.com/zixun/aggregation/14294.html">的大数据.超过85%的企业正在执行或者准备

认清大数据的10大误区

 大数据在当前的科技新闻中占据了主导地位,它被吹捧为一切问题的可能的解决方案,从入侵检测与预防欺诈,到治疗癌症和设置最优的产品价格. 但我们定义大体量.多格式.高速度的大数据,并不是能够搞定每一个问题的灵丹妙药.事实上,如果公司迷信周围的一些大数据的神话,可能在错误的方向越走越远,浪费大量的时间和金钱,影响公司的市场竞争地位,或者损害公司的声誉. 以下是企业应当知道的围绕大数据的十个最大的误区,了解他们将有助于有效地避免大数据的消极影响,并真正获得大数据带来的商业价值. 避免投资浪费,认清大数据

数据成为甲方 大数据呼来大服务时代

本文讲的是数据成为甲方 大数据呼来大服务时代,近期,中国电子信息产业发展研究院(CCID)日前发布<2011年中国数据库软件市场研究报告>(以下简称<报告>).预测2012年中国数据库软件市场规模预计达到38.71亿元,将比2011年大幅增长20.6%,以人大金仓为首的国产数据库软件市场规模预计达到3.29亿元,比2011年增长26.5%,呈现爆炸式增长.报告指出预计到2020年,世界上的数据存储总额将达到35 ZB,大数据的应用将成未来数据库的必然趋势.同时报告认为,国产数据库要

不关注人性的大数据,只是大忽悠

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 斯大林曾说:一个人的死是悲剧,一百万个人的死就是数据.如果拿医学界的术语,这是一种共情疲劳,如果换成时下最流行的术语,就是我们还无法处理大数据. 上周 参加腾讯思享会,主题就是"大数据将如何影响社会变革".场间针对大数据,提出了不同的声音,有"数据孤岛论":现 有的大数据是断裂而封闭的,比如腾讯说自己有某方面的全数据, 但是否

解读2015之大数据篇:大数据的黄金时代

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了"解读2015"年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行. 本文是大数据解读篇,在这篇文章里我们将回顾2015展望2016,看看过去的一年里广受关注的技术有哪些进展,了解下数据科学家这个职业的火热.在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop.Spark.Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu

2013年展望:大数据发展十大趋势分析

本文讲的是2013年展望:大数据发展十大趋势分析,2012年大数据发展如火如荼,大有赶超云计算之势.如果把今年比作大数据落地生根的一年,那么2013年将迎来其茁壮成长,甚至开花结果的一年.有预测称,大数据市场将以每年40%的速度增长,2012年大数据市场规模约为50亿美元,2013年将翻倍.2013年大数据发展有哪些新趋势呢?不管是IDC.Gartner还是国内大数据研究机构都给出了各自的答案,笔者在这里总结一下各方观点,并谈谈自己的想法. 预测1:开源大数据商业化 随着闭源软件在数据分析领域的

10分钟让你明白大数据 网友观点大拆解

文章讲的是10分钟让你明白大数据 网友观点大拆解,大数据的概念被吵的越来越厉害,这对于一个新技术领域的诞生是一个必经过程.对于"大数据"(Big Data),研究机构Gartner给出的定义是:"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 两年前,<纽约时报>撰文"欢迎大数据的到来",两年后,大数据的商业价值已经显现.在各个行业,我们都已能看到大数据的身影.网友关于大数据