1.5 数据管理的变迁
数据管理是数据库技术的核心,在其发展历史中,它经历了多个阶段。
1基本数据结构阶段(20世纪40~50年代)
自20世纪40年代计算机出现至50年代这段时间中,由于当时计算机结构简单,应用面狭窄且存储单元少,对计算机内的数据的管理非常简单,主要由基于内存的私有的并依附于程序的数据结构管理。此阶段称为基本数据结构阶段。
2文件阶段(20世纪50~60年代)
文件系统是数据库系统发展的初级阶段,它出现于上世纪50年代中期,此时计算机中已有磁鼓、磁盘等大规模存储设备,计算机应用面也逐步拓宽,此时计算机内的数据已开始有专门的软件管理,这就是文件系统。
文件系统能对数据进行初步的管理组织,并能对数据进行简单查找及更新操作,但是文件对数据的保护能力差,同时由于当时应用环境简单,因此接口能力差。由于文件系统的数据管理能力简单,因此它只能附属于操作系统而不能成为独立部分,目前一般将其看成是数据库系统的雏形,而不是真正的数据库系统。
文件系统主要有以下两点不足:
(1)文件系统的共享性差
在文件系统中,每个文件均是为特定应用程序服务的。在一个计算机中,如果有多个应用,则必须建立多个为应用服务的独立、分散的文件,它们的冗余性高,一致性低,极大地浪费了存储空间且容易造成数据管理的混乱。这些都是文件系统缺乏数据的共享性所带来的弊病。
(2)文件间缺少内在逻辑联系
由于文件依附于应用程序,不同应用的文件间是彼此隔离的,而且相同应用中的文件也依附于不同的应用需求,它们间也是孤立的。因此,整个文件系统内各文件间是彼此孤立的,是一个无弹性、无结构的数据集合体。这反映了文件系统内在结构上的缺陷,会对数据管理中的数据组织与数据查找更新的能力产生影响,更有甚者,它无法反映数据间内在的逻辑联系,人为制造了“信息孤岛”。
文件系统的这种不足带来了结构上的弊端。这种结构方式一般称为以程序为中心的结构方式,它可用图12表示,从图中可以看出,以程序为核心,数据依附于程序,而数据间则彼此隔离与孤立。
3数据库管理阶段(20世纪60年代~至今)
自20世纪60年代起,数据管理进入了数据库管理阶段。由于计算机规模日渐庞大,应用日趋广泛,计算机存储设备已出现大容量磁盘与磁盘组,且数据量已由大规模跃至超大规模,传统的文件系统已无法满足新的数据管理要求,因此数据管理职能由附属于操作系统的文件系统而脱离成独立的数据管理机构,即成为数据库管理系统。
数据库管理系统克服了文件系统的不足,特别是在共享性以及数据间逻辑联系方面的不足,使数据库系统成为能适应当代计算机应用发展的数据管理机构。其主要特点是:在数据库中,每个数据不再像文件系统那样仅针对某个应用,而是根据应用全面组织数据,做到数据对所有应用共享,同时根据数据内在关联建立起数据全局、整体的结构化组织。数据库系统的这种结构方式称为以数据为中心的结构方式,它可用图13表示。在该图中可看到,以整体、全局数据为核心,围绕它的是若干个程序对数据进行处理。
数据库管理系统阶段因不同的数据结构组织而分为三代,它们是:
(1)第一代——层次与网状数据库管理时代
20世纪60年代以后所出现的数据库管理系统是层次数据库与网状数据库,它们具有真正的数据库管理系统特色。但是,由于它们脱胎于文件系统,受文件的物理影响大,因此给数据库使用带来诸多不便。
(2)第二代——关系数据库管理时代
关系数据库管理系统出现于20世纪70年代,在20世纪80年代得到了蓬勃的发展并逐步取代前两种系统。关系数据库管理系统结构简单、使用方便、逻辑性强、物理性少,因此一直占据数据库领域的主导地位。关系数据库管理系统起源于商业应用,它适合于事务处理领域并在该领域内发挥主要作用。
图14数据管理变迁示意图
(3)第三代——后关系数据库管理时代
20世纪90年代以后,数据库逐步扩充至数据分析领域。此外,网络与互联网的出现也使传统关系数据库应用受到影响,此时需对关系数据库管理系统实行必要的改造与扩充,内容包括:
1)引入联机分析处理概念建立数据仓库以适应数据分析处理领域的应用。
2)近期,大数据技术的兴起,使数据库管理的第三代进入了更新的时代。
数据管理变迁的全貌可用图14表示。
本书将主要介绍数据管理,重点介绍关系数据管理,同时对后关系数据库管理也给予适当的关注与介绍。