大数据相关概念的界定与简析

通过对大数据相关概念进行明确界定,企业可以正确地规划自己的数据体系,并且对传统的技术方法与新兴的技术方法进行合适地定位。

IT技术迅猛发展,新技术层出不穷,但业界却普遍对许多基本概念产生混淆。在当今最为流行的大数据领域也出现了这样的情况。结构化数据、非结构化数据等概念被频繁引用,却各方往往各执一词。对数据概念的混淆已经在很大程度上影响了企业对其数据体系进行清晰、正确的规划。本文的作者从实际工作出发,试图对一些关键的大数据相关概念给出明确的定义,并进行简要的解析。

一、按数据特征分类

■结构化数据

定义:目前其实专指的是关系模型数据,即以关系型数据库表形式管理的数据。绝大多数的企业业务数据都以此格式进行存放。

简析:虽然从专业角度讲,结构化就是关系模型的说法并不准确。但针对目前业内现状,还是将其定义为关系模型数据为最为妥当,因为它清晰而准确地代表了我们传统上最熟悉的企业业务数据,基本没有歧义。

■半结构化数据

定义:半结构化与非结构化常常一同被提及,两者其实专指所有其他“非”结构化数据。但如果想更加清晰地描述,可以将“半结构化数据”定义为:那些非关系模型的、有基本固定结构模式的数据,例如应用日志文件、XML文档、JSON文档和电子邮件等。

简析:从专业的角度讲,上述结构化与半结构化数据都属结构化数据,但建议目前还是采用本定义为妥,否则会引起更大混淆。

■非结构化数据

定义:除去结构化与半结构化的所有数据,即没有固定结构模式的数据,例如WORD、PDF、PPT、EXL文档,以及各种格式的图片和视频等。

简析:区分半结构化与非结构化数据的意义在于,目前在企业内对两者的处理方法(包括存储、访问与分析)是不同的。非结构化数据大多采用内容管理的方法,但对半结构化数据基本没有有效管理方法。

事实上,结构化、半结构化与非结构化数据的区分,实际上只是按数据格式进行分类,并且由来已久。严格来讲,结构化与半结构化数据都是有基本固定结构模式的数据(即专业意义上的结构化数据)。但目前业界的情况是,将其中的关系模型数据单独定义为结构化数据,这对企业数据管理现状是可取的,并具有一定的现实意义。

另外,半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系。本质来讲,两者并无必然关系。业界有将大数据认同为半结构化与非结构化数据的说法,只是因为大数据技术最先是在半结构化数据领域发挥作用。上面的认识误区是将数据处理技术与数据格式概念混淆,这是不正确的。

二、按数据处理技术分类

■大数据(技术)

定义:大数据是最近几年兴起的概念,业界普遍将其定义为具有4个V(数据量大Volume、变化速度快Velocity、多类型Variety与价值密度低Value)特征的数据。实际上,大数据的概念准确地讲应该是指大数据技术,指对海量数据不同于SQL体系的新的、低成本的处理技术,而不是指数据格式或者其他。

简析:业界对大数据的定义最为混乱,大致有以下几个误区:有将大数据等同于半结构/非结构化数据的,而实际上大数据技术只是最先在半结构化数据领域发挥作用,现在已经渗透到多结构领域;有将大数据等同于Hadoop的,而实际上Hadoop只是在掀起大数据热潮方面发挥了巨大作用;有说大数据就是除企业业务数据库之外的所有数据,但却有很多企业用大数据方法有效地分析与存储某些业务数据。

另外,被内容管理手段管理起来的数据又该如何界定呢?有的说大数据就是互联网特征的数据,那传统企业就没有大数据了吗?有的说大数据就是量很大的数据,这更是无法界定了。其实,仔细分析,还是将其定义为数据处理技术最为准确。除SQL体系与内容管理技术外,大数据技术目前具有很丰富的内容。除此之外,大数据技术一定是强调低成本的。

■关系数据库技术

定义:与数据格式分类中的关系模型相比,这里是指SQL处理体系。

简析:关系数据库技术依然是企业数据管理的核心,大数据技术的定位需要进一步地考虑与研究。

■内容管理技术

定义:主要是指企业对非结构化数据,也包括部分结构化数据按“内容”特征组织、管理与访问的处理方法,是企业目前除关系型数据库技术之外,最常用的另一重要的技术方法与工具。

简析:是企业目前处理非结构化数据最主要的手段,企业对半结构化数据目前基本没有有效管理与利用。

■其他技术

定义:企业还可能采用如低成本的分布式文件系统、MySQL联邦、海量内存数据管理技术,以及介于Hadoop与SQL体系之间的新技术(适用于历史数据管理)等其他数据管理技术,这些技术部分可以归入大数据技术的范畴。

简析:互联网行业常用的MySQL联邦是采用关系模型的结构化数据,但却不是等同于分布式关系型数据库,因为它牺牲了完整关系型数据库全局的一致性、完整性保证,却获得了更优秀的扩展性。因此,它也属于大数据技术。

除此之外,分布式文件系统使企业对海量小文件管理有了新的方法,也属于大数据技术;低成本海量内存数据管理技术使交易系统的能力进一步实现低成本地提升,也属于大数据技术。可见,大数据技术是面向结构化、半结构化与非结构化数据的,而不只是针对半结构化数据。

因此,大数据更多的是指技术方法,而不是指数据格式,是指除SQL体系与内容管理技术之外,新出现的一些数据管理技术。而大数据所谓的“大”并没有相关的标准。在大数据技术中,Hadoop只是最重要的一个,而不是唯一的一个,其他还有NoSQL、分布式文件系统、MySQL关系型数据库联邦、海量内存数据管理技术等。

大数据技术可以应对的数据类型中,企业目前还没有有效管理和处理的半结构化数据只是其最早发挥作用的部分。而实际上,它还可以应对包括结构化、半结构化与非结构化在内的所有数据类型。

另外,需要澄清和明确的是,大数据技术一定要是低成本的,否则没有立足点。同时,关系型数据库技术仍然是企业数据管理的核心。内容管理是目前企业组织、存储与访问非结构化数据的主要手段,如果引入大数据技术来处理非结构化数据,除更低成本的考虑外,应该是指内容管理技术尚未涉及的数据分析领域,例如图片、视频分析,但这对于银行等行业实际需求应该还比较遥远。

企业IT人员对以上概念应该明确界定,可将其数据类型分为“结构化”、“半结构化”和“非结构化”三种。同时,企业可以将数据处理方法划分为“关系数据库技术”、“大数据技术”、“内容管理技术”及其他。在清晰地概念定义基础上,企业不但可以正确地规划自己的数据体系,并且可以对传统的技术方法与新兴的技术方法进行合适地定位。

(责任编辑:蒙遗善)

时间: 2024-07-28 17:59:11

大数据相关概念的界定与简析的相关文章

国外大数据研究热点及发展趋势探析

国外大数据研究热点及发展趋势探析 黄永勤 大数据时代的到来引起了业界和学界的广泛关注,大量研究成果不断涌现.对Web of Science数据库中收录的国外研究大数据的相关文献进行分析和综述.通过绘制关键词的知识图谱,梳理了国外大数据研究的5个热点:"大数据源起.概念和特点"."生物信息学"."云计算"."MapReduce和Hadoop"."可视化",并揭示了它们的研究现状.现存问题和发展方向. 国外大数

何谓“大数据”该如何界定?

根据哈里斯互动公司刚刚公布的一项针对154家的企业http://www.aliyun.com/zixun/aggregation/32268.html">调查显示,超过一半以上的受访企业属于中小型企业.调查显示他们是如何界定"大数据"的.有28%的受访企业表示这意味着"交易数据的大规模增长".而有24%的人认为这是指管理海量数据的新技术,19%的受访企业将其定义为"合规性的数据存储和存档的要求." 不管他们到底如何定义大数据,他们

海淘APP么么嗖大数据玩法:极简+信息不对称

么么嗖momoso海淘,极简主义范儿 以http://www.aliyun.com/zixun/aggregation/13568.html">大数据技术为核心的海淘平台么么嗖momoso,在为用户挖掘海量商品与折扣的同时,还通过数据分析选取更适合国人的商品进行推荐.为追求最便捷的购物流程,么么嗖momoso更替用户解决了支付.转运和关税三大难题,使海外购物不再繁琐.原本无比诱人却遥不可及的外国商品,现在却可以"嗖"地一声来到我们身边.么么嗖momoso的使命就是:给国

大数据的方法:《证析》

每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的.这个领域还有本书<啤酒与尿布>来分析如何进行货品陈列.但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么:其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的. 但电子商务就不是.我几位从事化妆品电商的朋友就搞过这种事.2006年的时候,他们创建了一个化妆品售卖的网站,但有一个疑问:究竟是把货品的照片放在页面上部好呢还是把用户的评

大数据的智慧理论“营销至简”

营销行业中的知识挖掘或消费者洞察,是一个巨大的.快速发展的是全球产业,致力于追踪和分析消费者行为,并分类总结这些数据,以便能够用于说服,有时能操纵我们的购买行为.透过数据挖掘实施精准的http://www.aliyun.com/zixun/aggregation/8073.html">营销推广,我们称之为"大数据智慧营销".大数据顾名思义就是在于数据足够的庞大,大数据时代我们不在简单的追求因果关系而是在推导事务之间的相关关系.通过数据的分析可以给我们受众展示一次次&qu

大数据背景下我国网络意识形态建设论析

随着智能终端.网络存储.高速宽带.云计算等技术创新应用的普及,人类社会进入大数据(Big Data)时代.以内容的视角看,大数据就是大规模数据或海量数据,具有体量巨大.类型多样.产生速度快.价值含量大等特点,包括不同来源.不同结构.不同媒体形态的各种数据内容,冲破传统的结构化数据范畴,囊括了半结构化和非结构化数据.以技术的视角看,大数据就是运用新技术.新手段对海量数据进行的采集.存储.分析.整合和控制.大数据给人类社会的发展和进步注入了新的动力,也改变了人类的生存和发展环境.在大数据趋势下,互联

浅析大数据最常见的10个问题

1.云计算与大数据是什么关系? 云计算的关键词在于"整合",无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题. 大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等. 他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,

2017年大数据市场价值324亿美元

据IDC最新报告显示,未来四年大数据市场显著增长,在此期间,在线数据信息将呈爆炸式增长. 2017年http://www.aliyun.com/zixun/aggregation/13568.html">大数据技术和服务市场复合年均增长率(CAGR)预计为27%,达到324美元.如此看来,其增长的幅度就是ICT(信息和通信技术)市场的六倍.大数据不仅是新兴行业,也是市场的主要驱动力,它正在变成一个重要的市场. IDC业务分析和大数据研究副总裁Dan Vesset表示:"大数据技术

交易中的大数据归谁所有?

大数据交易,大数据商品化,必然会涉及到一系列法律问题,如大数据所有权.隐私权.版权等,其中所有权问题最为模糊,至今无明确法律法规予以清晰规定.交易的所谓大数据的所有权究竟归谁? 随着大数据产业的快速发展,北京.贵州.上海.武汉等地积极布局大数据交易平台,数据交易日趋活跃.贵阳大数据交易所.上海数据交易中心.东湖大数据交易所交易平台.长江大数据交易所.徐州大数据交易.河北京津冀数据交易中心等纷纷成立,为数据所有者提供大数据变现的渠道.大数据交易,大数据商品化,必然会涉及到一系列法律问题,如大数据所