从传统数据库到大数据引发的范式升级

大数据的出现,必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。对于数据库研究人员和从业人员而言,必须清楚的是,从数据库(DB)到大数据(BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。

如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为"池塘捕鱼" 和"大海捕鱼:是个很好的类比。"池塘捕鱼"代表着传统数据库时代的数据管理方式,而 "大海捕鱼"则对应着大数据时代的数据管理方式,"鱼"是待处理的数据。"捕鱼"环境条件的变化导致了"捕鱼"方式的根本性差异。这些差异主要体现在如下几个方面:

1、数据规模:"池塘"和"大海"最容易发现的区别就是规模。"池塘"规模相对较小, 即便是先前认为比较大的“池塘”,譬如 VLDB(Very Large Database),和"大海"XLDB(Extremely Large Database)相比仍旧偏小。"池塘"的处理对象通常以 MB 为基本单位,而"大海"则 常常以GB,甚至是 TB、PB 为基本处理单位。

2、数据类型:过去的"池塘"中,数据的种类单一,往往仅仅有一种或少数几种,这 些数据又以结构化数据为主。而在"大海"中,数据的种类繁多,数以千计,而这些数据又 包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来 越大。

3、模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这 就好比是先选好合适的"池塘",然后才会向其中投放适合在该"池塘"环境生长的"鱼"。 而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随 着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类 和数量都在不断的增长。鱼的变化会使大海的成分和环境处于不断的变化之中。

4、处理对象:在"池塘"中捕鱼,"鱼"仅仅是其捕捞对象。而在"大海"中,"鱼" 除了是捕捞对象之外,还可以通过某些"鱼"的存在来判断其他种类的"鱼"是否存在。也 就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助 解决其他诸多领域的问题。

5、处理工具:捕捞"池塘"中的"鱼",一种渔网或少数几种基本就可以应对,也就是 所谓的 One Size Fits All。但是在"大海"中,不可能存在一种渔网能够捕获所有的鱼类,也 就是说 No Size Fits All。

从"池塘"到"大海",不仅仅是规模的变大。传统的数据库代表着数据工程(Data Engineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的 数据思维来应对。图灵奖获得者、著名数据库专家 Jim Gray 博士观察并总结人类自古以来, 在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天, 传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一 种全新的第四种范式来指导新形势下的科学研究。基于这种考虑,Jim Gray 出了一种新的 数据探索型研究方式,被他自己称之为科学研究的"第四种范式"(The Fourth Paradigm)。表四种范式的比较:

四种范式的比较如上图所示。第四种范式的实质就是从以计算为中心,转变到以数据 处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的"捕鱼",在大数据时代,数据不再仅仅是"捕捞"的对象,而应当转变成一种基础 资源,用数据这种资源来协同解决其他诸多领域的问题。计算社会科学(Computational Social Science)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(data print),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。Duncan J. Watts 在《自然》杂志上的文章《A twenty-first century science》也指出借助于社交网络和计算机分析技术,21 世纪的社会科学 有可能实现定量化的研究,从而成为一门真正的自然科学。

本文转自d1net(转载)

时间: 2024-10-29 03:53:08

从传统数据库到大数据引发的范式升级的相关文章

访任永杰:解读数据库和大数据发展趋势

文章讲的是访任永杰:解读数据库和大数据发展趋势,随着云计算.大数据的快速发展,中国的数据库市场呈现百花齐放的良好发展态势,传统的商用数据库.云数据库.开源数据库各显其能.人大金仓作为中国数据库市场的重要力量,围绕数据库与大数据融合,走出了一条自主可控的国产数据库发展道路.在2017年中国数据库技术大会(DTCC 2017)间隙,人大金仓总裁任永杰接受了IT168的独家专访.并详细剖析了中国数据库和大数据发展的未来趋势. ▲人大金仓总裁任永杰 数据库自主可控的三部曲 中国的数据库发展起步晚,技术实

大数据引发App应用市场巨变

正如马云所说,很多人还没搞清楚什么是PC互联网,移动互联来了,还没搞清楚移动互联的时候,大数据时代又来了. 2015年,大数据时代气息浓厚.利用大数据的分析和预测,电商们正在为用户进行深度画像开展精准营销,让15分钟送货上门成为现实:结合大数据分析,互联网金融企业捕捉来自大众点评.豆瓣等社交网络的有效信息,多维度分析借款客户信用情况,提高自身风控能力.此外,大数据应用还将触角延伸到教育.医疗.交通.制造.影视.政府等领域-- 如此有爆发力的大数据应用,2016年将去撼动何方呢?自阿里提出PP助手

南大通用突破传统 展示新型大数据平台

文章讲的是南大通用突破传统 展示新型大数据平台,2013年3月8日,国产数据库厂商南大通用主办的"国产新型大数据平台开放日"活动在天津海泰绿色发展基地成功举办,吸引了来自国家部委的领导.专家.行业用户.合作伙伴及媒体等百余人到场,共同见证了国内首个最大规模的行业大数据处理平台,并就大数据行业应用进行了深入细致的探讨. ▲南大通用CTO武新博士 大数据引发数据行业变革 南大通用CTO武新博士的演讲<大数据如何引发数据行业变革>,继而通过对数据处理架构改变及技术创新的解释,说明

国产新型数据库:大数据时代的创新机遇

文章讲的是国产新型数据库:大数据时代的创新机遇,三十年数据库的发展和形成的以Oracle.IBM.Microsoft等为代表的强势垄断格局,使得传统国产数据库不仅生不逢时,加上技术上采取跟随战略.在事务处理领域顽强拼杀,虽然产品不断进步.市场应用也不断取得单点突破,但大多处于非核心应用.尽管政府给予了持续的大力支持,但在垄断壁垒和开源软件左右夹击下,除了政策性市场之外,很难取得规模化突破,尚未形成企业发展良性循环和政府支持的双赢局面. 大数据时代的到来,使得传统数据库在处理百TB以上.特别是PB

2012数据库与大数据产品评选结果公布

本文讲的是2012数据库与大数据产品评选结果公布,2012年12月28日消息,由盛拓传媒IT168主办的2012数据库与大数据产品年度评选于近日正式落下帷幕.本次评选分别对数据库产品和大数据产品,共选出数据库卓越产品奖.最具创新数据库产品奖.最具创新数据库产品奖.大数据卓越产品奖.最具创新大数据产品奖.最受欢迎大数据产品奖六项大奖.其中卓越产品奖和最具创新产品奖由专业评委投票选出,最受欢迎产品奖完全由网友投票产生. 此次评选共有35款产品进入候选名单,其中数据库产品20款,大数据产品15款.经过

浅析传统关系数据库面临大数据的挑战

文章讲的是浅析传统关系数据库面临大数据的挑战,什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案.20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储.单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上.大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理. 随着社会计算的兴

2012年数据库与大数据领域回顾与展望

本文讲的是2012年数据库与大数据领域回顾与展望,2012注定是不平凡的一年,玛雅人将世界末日定在这一年的12月21日,然而这一天也许并不意味着结束,而是重生.正如2012对于大数据的意义一样,经过一年的历练,IT业界将在2013年迎来大数据元年. 一.2012年度回顾:大数据蓄势待发迎接元年 (一)2012年大数据呈现新特征 大数据不是刚刚出现的概念,"大数据"最早可以追溯到Apache的开源项目Nutch,当时大数据用来描述更新网络搜索索引所需批量处理或分析的大量数据集.随着谷歌M

分析型数据库受大数据市场追捧

文章讲的是分析型数据库受大数据市场追捧,近期,大数据领域有一些值得关注的动向.首先,EMC和VMware正式公布成立新公司Pivotal.其次,Actian公司宣布收购大规模并行处理(MPP)分析数据库厂商ParAccel,后者还为Amazon云数据仓库Redshift提供了后端支持. 这两个举动都是以分析为中心,并以大数据作为背景. 成立新公司Pivotal,EMC公司"贡献"出Greenplum部门,该部门也做MPP分析数据库产品.VMware则"贡献"出应用开

基于NoSQL数据库的大数据存储技术的研究与应用

基于NoSQL数据库的大数据存储技术的研究与应用 孙中廷 实际工程中采集和处理的数据量特别大,这对传统数据库技术提出巨大挑战.针对传统关系型数据库存储速度慢.对硬件要求高的缺点,提出一种以NoSQL数据库为基础的大数据处理方法,打破了传统数据库的关系模型,数据以一种自由的方式存储,而不依赖固定的表结构.该方法主要是将经验模态分解并与NoSQL数据库技术相结合,应用于大型结构件的变形监测中,构建出一个基于NoSQL数据库系统的大型结构件变形监测系统.仿真结果表明,该方法可以实现大型结构件变形监测数