定义大数据:不仅仅是海量结构性数据

文章讲的是定义大数据:不仅仅是海量结构性数据,大数据如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题。然而,当人们发现数据库中的数据可以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了。

  大数据汹涌来袭

  当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击又会是另外一种处理方式。很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来。有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

  如今大数据的概念也存在着很多的炒作和大量的不确定性。为此,编者详细向一些业内专家详细了解有关方面的问题,请他们谈一谈,大数据是什么和不是什么,以及如何应对大数据等问题,将系列文章的形式与网友见面。

  有人将多TB数据集也称作”大数据”。据市场研究公司IDC统计,数据使用预计将增长44倍,全球数据使用量将达到大约35.2ZB(1ZB = 10亿TB)。然而,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。

  EMC曾经表示,它的1000多个客户在其阵列中使用1PB(千兆兆)以上的数据数据,这个数字到2020年将增长到10万。一些客户在一两年内还将开始使用数千倍多的数据,1EB(1艾字节 = 10亿GB)或者更多的数据。

  对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据,另外是把计算机聚合成服务器集群越来越简单。IDC认为,这三大因素的结合便催生了大数据。同时,IDC还表示,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个”V”判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。

  多样性是指,数据应包含结构化的和非结构化的数据。

  体量是指聚合在一起供分析的数据量必须是非常庞大的。

  而速度则是指数据处理的速度必须很快。

  大数据”并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。

  Garter表示,全球信息量正在以59%以上的年增长率增长,而量是在管理数据、业务方面的显著挑战,IT领袖必须侧重在信息量、种类和速度上。

  量:企业系统内部的数据量的增加是由交易量、其它传统数据类型和新的数据类型引发的。过多的量是一个存储的问题,但过多的数据也是一个大量分析的问题。

  种类:IT领袖在将大量的交易信息转化为决策上一直存在困扰 – 现在有更多类型的信息需要分析 – 主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多种类。

  速度:这涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快和数据必须被多快地处理以满足需求。

  虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义,在大数据里面寻找模式帮助组织机构做出更好的商业决策。

  诸子百家谈如何定义”大数据”

  尽管”Big Data”可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。

  定义一:大数据 = 海量数据 + 复杂类型的数据

  Informatica中国区首席产品顾问但彬认为:”大数据”包含了”海量数据”的含义,而且在内容上超越了海量数据,简而言之,”大数据”是”海量数据”+复杂类型的数据。

  但彬进一步指出:大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。

  大数据是由三项主要技术趋势汇聚组成:

  海量交易数据:在从 ERP应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。

  海量交互数据:这一新生力量由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。

  海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说,难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。

  定义二:大数据包括A、B、C三个要素

  如何理解大数据?NetApp 大中华区总经理陈文认为,大数据意味着通过更快获取信息来使做事情的方式变得与众不同,并因此实现突破。大数据被定义为大量数据(通常是非结构化的),它要求我们重新思考如何存储、管理和恢复数据。那么,多大才算大呢?考虑这个问题的一种方式就是,它是如此之大,以至于我们今天所使用的任何工具都无法处理它,因此,如何消化数据并把它转化成有价值的洞见和信息,这其中的关键就是转变。

  基于从客户那里了解的工作负载要求, NetApp所理解的大数据包括A、B、C三个要素:分析(Analytic),带宽(Bandwidth)和内容(Content)。

  1. 大分析(Big Analytics),帮助获得洞见 – 指的是对巨大数据集进行实时分析的要求,它能带来新的业务模式,更好的客户服务,并实现更好的结果。

  2. 高带宽(Big Bandwidth),帮助走得更快 – 指的是处理极端高速的关键数据的要求。它支持快速有效地消化和处理大型数据集。

  3. 大内容(Big Content),不丢失任何信息- 指的是对于安全性要求极高的高可扩展的数据存储,并能够轻松实现恢复。它支持可管理的信息内容存储库、而不只是存放过久的数据,并且能够跨越不同的大陆板块。

  大数据是一股突破性的经济和技术力量,它为 IT 支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限。借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起,它有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。

作者:李焕珠

来源:IT168

原文链接:定义大数据:不仅仅是海量结构性数据

时间: 2024-10-30 01:41:40

定义大数据:不仅仅是海量结构性数据的相关文章

海量冷数据存储关键技术

近年来,移动互联网.物联网.云计算的快速发展催生并积累了大量的用户.业务数据.据市场调研机构IDC预计,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB.据统计,这些海量数据中只有10%~15%的数据是被经常访问的,而绝大部分都会在产生之后逐渐变冷.这些"冷数据"的访问率虽然很低,但用户还是希望保留这些数据,对于企业而言,还有很多数据需要进行备份和存档. 且不管数据的冷热及其冗余备份,如果将这40ZB的数据都使用目前已量产的最大容量蓝光盘来存储,按照

名家定义大数据:啤酒与尿布

信息爆炸时代,大数据统计降临到商业.经济.政治等领域,成为备受推崇的决策工具.大数据成为一场基于时代发展的IT洞察,是基于人类生产生活所带来的数据和人机.机器与机器之间更紧密通讯带来的数据聚合.甚至有人说:得大数据者得天下. 但是,大数据到底离我们有多远,是不是只有决策者才需要大数据,或者说大数据只是为决策者服务的?答案显然是否定的,在这个大数据时代,我们每个人都是大数据的创造者,每个人也都是大数据分析福利的享用者. 随着互联网+,工业4.0等概念的提出,我们更要认清,国家正在加大力度让传统政府

“大数据”不仅仅是一个时髦词汇

摘要: 能创造财富 就能催生出新职业 周默是耶鲁大学的一名MBA毕业生,踏出校门便被IBM公司抢走,加入该公司正迅速扩展的数据咨询部门这个部门专门负责对眼下社交网络上爆炸式的数据提 能创造财富 就能催生出新职业 周默是耶鲁大学的一名MBA毕业生,踏出校门便被IBM公司"抢走",加入该公司正迅速扩展的数据咨询部门--这个部门专门负责对眼下社交网络上爆炸式的数据提供分析,对公司决策.削减开支.提升销售提供参考. 目前,美国需要更多像周默一样的数据分析人才.根据研究机构数据,美国需要14万至

《大数据、小数据、无数据:网络世界的数据学术》一 2.2 定义与术语

2.2 定义与术语 学术文献.政策声明和大众媒体中到处都充斥着对数据的讨论,它们都尝试定义业内术语.罗森博格(Rosenberg 2013)指出,即使是在科学史和认识论历史中,人们也只是在无意间提及数据(Blair 2010:Daston 1988:Poovey 1998:Porter 1995).其他在科学领域中讨论事实(fact).表示(representation).记录册(inscription)和出版(publication)等含义的基础性作品也很少关注数据本身(Bowker 2005

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据加工:用户画像》篇

阿里云MVP Meetup:<云数据·大计算:海量日志数据分析与应用>之<数据加工:用户画像>篇 实验背景介绍 本手册为阿里云MVP Meetup Workshop<云计算·大数据:海量日志数据分析与应用>的<数据加工:用户画像>篇而准备.主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像,学员可以根据本实验手册,去学习如何创建SQL任务.如何处理原始日志数据. 实验涉及大数据产品 大数据计算服务 Max

php 大数据量及海量数据处理算法总结_php技巧

下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明

大数据量,海量数据处理方法总结_数据库其它

下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明

亚马逊CTO:大数据不仅仅是分析

亚马逊CTO Werner Vogels在Cebit上发表的主题演讲称,企业在思考大数据的时候,需要注意的不仅是需要分析大量的数据,还包括信息的存储方式. Vogels的演讲题目是"无限的数据",此外,还鼓励企业思考大容量图片的问题,他还介绍了用于实施大数据系统的http://www.aliyun.com/zixun/aggregation/13888.html">亚马逊云蓝图. Vogels表示:"大数据不仅仅是分析,它是关于整个流程.当你思考大数据的解决方

谁会真的在乎如何定义大数据?

看着那么多人在争论如何定义大数据,感觉非常有意思.总是会有人提出不同的建议,即便只是存在细微的差别.在任何规则的背后也都会有潜在的例外.因此,从商业角度,而不是单纯的学术研究方面来讲,我认为在这样的争论上花很多精力并没有太大的实际价值.还是让我们来一探究竟吧. 数据分析的目的是为了利用数据去做出更好的商业决策.这一切都在于它的商业价值.判定数据本身究竟是"大"与否并没有增加任何的商业价值.业界需要关心的问题其实很简单:是否存在一些其本身具有很高的潜在价值,但目前仍未被收集的数据源?如果