谁会真的在乎如何定义大数据?

看着那么多人在争论如何定义大数据,感觉非常有意思。总是会有人提出不同的建议,即便只是存在细微的差别。在任何规则的背后也都会有潜在的例外。因此,从商业角度,而不是单纯的学术研究方面来讲,我认为在这样的争论上花很多精力并没有太大的实际价值。还是让我们来一探究竟吧。

数据分析的目的是为了利用数据去做出更好的商业决策。这一切都在于它的商业价值。判定数据本身究竟是“大”与否并没有增加任何的商业价值。业界需要关心的问题其实很简单:是否存在一些其本身具有很高的潜在价值,但目前仍未被收集的数据源?如果答案是肯定的,那么它就需要被收集并分析。这便是一个商业人士应该关心的核心问题。他们并不需要去在意数据本身的大还是小,或者介于两者之间。

让我们来想象一个应用场景,一群商业以及IT人士聚集在一个大型会议室,讨论一项新的数据源。作为座谈的一部分,他们达成一致协议,认为这项新的数据源应当(或不应当)被认定为大数据。这份结论对推动会议进程起到了任何作用吗?什么也没有。真正推动会议进程的,是这只商业团队认可这项新的数据资源是有用的并且值得分析;是这只IT团队决定如何基于数据本身的特点以最佳的方式使得数据可用。只有当致力于使数据付诸于工作而不仅仅停留在语义的定夺上,才会有真正的进展。

如上所说,一旦决定某项数据源是重要的,那么数据本身的特点会影响我们如何获取它以及如何将其应用于分析过程。举例来说,如果这项数据通常是大数据并且/或者是松散的,我们可能会需要利用某些与大数据相关的技术。但是,这仅仅是出于一种技术实现方面的考虑。而关于这项数据,做出是否具有足够价值去收集的重大决定,与我们将其置于怎样的语言定义范畴,没有任何的关系。

另一个通常性的错误是将大数据等同于具体工具或技术的运用。但是,工具和技术的应用是广泛的,并不仅仅局限于大数据。举例来说,如果我想为一家全球性组织做一项关于情绪与所有社会媒体评论的分析,我可能有大量的数据需要处理。我还需要某些复杂的文字分析工具和情感计算法则。现在让我们来假设我想要做一项关于情绪与10条对我的评论的分析。猜猜会怎样呢?我需要完全相同的文本分析工具和情感计算法则。我只是不需要用相同的标准去衡量他们。

通过以上观点可以看到,更多与“大数据”相关的其实是一个“不同数据类型”的组合。文本数据需要不同的工具和技术。半结构化数据比起传统的结构化数据需要更多不同的处理。但是,这些数据类型对于无论是大型还是小型数据而言都需要不同的处理方式。

对于负责大数据技术实现的人群,还是有必要去练习理解各类数据的不同,以及他们是被如何定义的。我并不是说在这个领域里的所有努力都是浪费时间。如果你连数据本身所包含的内容都不理解,那你如何去开发处理数据的工具以及技术呢。我仅仅是认为,我们过多的强调了涉及客户的主题,例如那些实际上并不用去担心的商业客户。

下一次当有人再向你询问如何定义大数据,或者某一项数据来源是否应当被认定为大数据的时候,考虑下你将如何回答。你们真的需要这样的讨论吗?或许你们是否需要换个角度,更多的去研讨这项数据可能会具有怎样的价值以及应当怎样予以分析?我相信,如果选择了后者,你们将会取得更大的进展,获取更大的价值。

本文作者:佚名

来源:51CTO

时间: 2024-10-12 12:28:35

谁会真的在乎如何定义大数据?的相关文章

名家定义大数据:啤酒与尿布

信息爆炸时代,大数据统计降临到商业.经济.政治等领域,成为备受推崇的决策工具.大数据成为一场基于时代发展的IT洞察,是基于人类生产生活所带来的数据和人机.机器与机器之间更紧密通讯带来的数据聚合.甚至有人说:得大数据者得天下. 但是,大数据到底离我们有多远,是不是只有决策者才需要大数据,或者说大数据只是为决策者服务的?答案显然是否定的,在这个大数据时代,我们每个人都是大数据的创造者,每个人也都是大数据分析福利的享用者. 随着互联网+,工业4.0等概念的提出,我们更要认清,国家正在加大力度让传统政府

定义大数据:不仅仅是海量结构性数据

文章讲的是定义大数据:不仅仅是海量结构性数据,大数据如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题.然而,当人们发现数据库中的数据可以分为三种类型:结构性数据.非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了. 大数据汹涌来袭 当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击又会是另外一种处理方式.很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来.有调查发现,这些复杂数据中有85%

大数据的起源和错失大数据市场的鼻祖Google

今天的讲话有三个主题: 大数据是什么Google的大数据发展Google为什么在大数据市场没做好,就是为什么没赚到钱也没有实际的影响力 大数据是什么 我从08年开始实际接触Hadoop的,这得益于当年IBM和我在的学校的一次合作,做一个研究项目:怎么样用蒙特卡洛的办法来解决数据中的不确定性问题.这个解决方案有两个特点,第一是计算量非常非常的大,第二是计算和计算之间相对独立.这就使得基于Hadoop的并行计算成为一个很好的选择. 大数据作为一个名词其实是晚于Hadoop的,更是晚于MapReduc

《企业大数据系统构建实战:技术、架构、实施与应用》——第2章 企业大数据职能规划 2.1 大数据组织架构体系

第2章 企业大数据职能规划 第1章我们介绍了企业大数据在宏观和微观层面的定位,立足于解答企业大数据的商业模式.市场机会.延伸价值.内部功能定义等问题.当企业已经确定要实施大数据战略时,应该如何针对性地建立职能架构体系以保证企业大数据的有效实施和落地?各个职能部门的职责范畴如何定义?不同体系和部门间如何协同和流程化工作? 本章将详细讲解企业大数据职能规划体系,包括如何定义大数据部门在企业中的角色,常见的大数据职能及职责分工,不同职位的职责划分以及大数据制度和流程建设等问题. 2.1 大数据组织架构

工智能、大数据与深度学习之间的关系和差异

网络上从不缺乏对数据科学术语进行比较和对比的文章.文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人.这几乎是势不可挡的. 所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子.对,是这样的. 为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一. 所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,

何谓“大数据”该如何界定?

根据哈里斯互动公司刚刚公布的一项针对154家的企业http://www.aliyun.com/zixun/aggregation/32268.html">调查显示,超过一半以上的受访企业属于中小型企业.调查显示他们是如何界定"大数据"的.有28%的受访企业表示这意味着"交易数据的大规模增长".而有24%的人认为这是指管理海量数据的新技术,19%的受访企业将其定义为"合规性的数据存储和存档的要求." 不管他们到底如何定义大数据,他们

人工智能、大数据与深度学习之间的关系和差异

网络上从不缺乏对数据科学术语进行比较和对比的文章.文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人.这几乎是势不可挡的. 所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子.对,是这样的. 为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一. 所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,

让我们重新认识下扑面而来的“大数据”

"大数据"的概念其实并不新鲜 大数据时代已经到来,但不是每个人都在接受它的洗礼.更准确的说,现如今我们所谓的"大数据",其实就是硅谷的互联网大佬们若干年前所做的事,之所以现如今被人们所重新认识,觉得它是新鲜有趣的,那是因为现在推动大数据的技术,已经完全开源,并且普及到了大部分的企业和公司. 在与欧洲很多传统企业的对话中,我们可以越发清楚的察觉到,大数据除了能够让开发应用项目在非硅谷的地方迅速成熟起来之外,无甚新奇之处.之所以提及欧洲,那是因为在IT技术发展上,它落后

云中的大数据:数据速度、数据量、种类、真实性

本文重点介绍使用大数据的应用程序,解释大数据分析背后的基本概念,以及如何将这些概念与商业智能 (BI) 应用程序和并行技术相结合,比如 "云扩展" 系列第 3 部分中介绍的计算机视觉 (CV) 和机器学习方法. 大数据分析与视频分析的区别在于所处理数据类型的广度上,而且与所使用的数据挖掘或 MapReduce 方 法相比,所提供的交互式分析和搜索工具可能更加复杂,而且比 Google BigQuery 的运行时间长得多.例如 ,Google BigQuery 使用列式搜索来压缩和加速海