《大数据管理概论》一1.2 大数据的演变过程

本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.2节,作者 孟小峰,更多章节内容可以访问“华章计算机”公众号查看

1.2 大数据的演变过程

从数据库(Database,DB)到大数据(Big Data,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面都会带来革命性变化。
如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是一个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:
1)数据规模:“池塘”和“大海”最明显的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large DataBase),与“大海”XLDB(Extremely Large DataBase)相比仍旧偏小。
“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB甚至是TB、PB为基本处理单位。
2)数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。
3)模式(schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代在很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。
4)处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。
5)处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的“One Size Fits All”。但是在“大海”中,不存在一种渔网能够捕获所有鱼类的情况,也就是所谓的“No Size Fits All”。
从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工程(data engineering)的处理方式,大数据时代的数据已不仅仅是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray博士观察并总结指出,人类自古以来,在科学研究上先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,这三种传统范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的范式来指导新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研究方式,他称之为科学研究的“第四种范式”(The Fourth Paradigm)[2]。
四种范式的比较如表1-1所示。第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的捕鱼方式的转变,在大数据时代,数据不再仅仅是捕捞的对象,而应当转变成一种基础资源,来协同解决其他诸多领域的问题。例如,计算社会科学(computational social science)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(data print),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。Duncan J. Watts在《Nature》杂志上的文章“A twenty-f?irst century science”也指出借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。
表1-1 科学研究上发现的四种范式
科学范式 出现时间 主要方法
实验 数千年前 通过观察来描述自然现象
理论 近百年 建立模型、概论
计算 近几十年 对复杂现象利用计算机进行仿真模拟
数据探索
(data exploration) 目前 仪器或仿真器产生数据,计算机软件将这些数据进行处理,而后存储于不同地方,最后要将这些数据高效地汇集、整理、统计、分析、共享和归档,并加以再利用

时间: 2024-10-26 10:30:22

《大数据管理概论》一1.2 大数据的演变过程的相关文章

《大数据管理概论》一1.3 大数据应用

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.3 大数据应用 人类历史上从未有哪个时代同今天一样产生如此海量的数据.数据的产生已经完全不受时间.地点的限制.从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生. 1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为

《大数据管理概论》一2.3 大数据融合的方法论

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.3 大数据融合的方法论 由2.2节的分析可知,大数据融合是一个多学科跨领域的研究问题,它的任务是将碎片化的数据相联系,将分散的数据集中,形成表层知识,即知识资源:进而使隐性知识显性化,使表层知识上升为普适机理.从而在数据资源.知识资源与用户之间建立有效的联系,缓解数据的无限性.知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

《大数据管理概论》一2.4 数据融合技术

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.4 数据融合技术 数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源.另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求.面对新的融合需求,反馈迭代机制显得极为重要.为此,我们给出数据融合的新的实现步骤:①对齐本体.模式,加速融合效率:②识别相同实体.链接关联实体:③甄别真伪.合并冲突数

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一2.6 大数据融合的驱动枢纽

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.6 大数据融合的驱动枢纽 数据融合与知识融合是一个相互启发.相互协调.逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格.此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性.海量性和高速性,这些因素直接影响融合技术. 2.6.1 智能晶格 智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它

《大数据管理概论》一第3章‖大数据存储3.1 引言

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 第3章| 大数据存储 3.1 引言 大数据存储与管理研究首先面临的是存储技术上的挑战.虽然目前有许多存储技术有望用于大数据存储,但它们都存在局限性[36].例如:目前以NoSQL数据库为代表的大规模分布式数据库系统设计了基于磁盘存储的读写方式.索引结构.查询执行.查询优化和恢复策略,但是磁盘固有的读写性能差等弊端限制了大数据存取尤其是大数据分析性能

《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 |第1章 概 述 1.1 大数据的基本概念 已故的图灵奖得主Jim Gray在其<事务处理>一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收.土地.谷物.牲畜.奴隶和黄金等情况.随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文.

《大数据管理概论》一1.4 大数据的处理模式

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.4节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.4 大数据的处理模式 无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce.这些系统将分布式编程简化为自动提供位置感知(locality-aware)调度.容错以及负载均衡,使得大量用户能够在商用集群上分析庞大的数据集.大多数现有的集群计算系统都是基于非循环数据流模型(acyclic data f?l