内容提要:
DB2 pureXML功能部件允许您将格式良好的 XML 文档以分层结构的形式存储在具有 XML 数据类型的表列中。通过将 XML 数据存储在 XML 列中,数据可保持其本机分层结构形式,而不是将其作为文本存储或映射为其他数据模型。因为 pureXML 数据存储已完全集成,所以可利用现有 DB2数据服务器功能来访问和管理存储的 XML 数据。将 XML 数据以其本机分层结构形式来存储可以使 XML 的搜索、检索和更新效率更高。XQuery、SQL 或上述二者的组合可用于查询和更新 XML 数据。返回 XML 数据或采用 XML 自变量的 SQL 函数(称为 SQL/XML 函数)还能根据从数据库中检索的值来构造或发布 XML 数据。
简介
许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。
今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式, SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。
然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。
与之相反,在过去的20多年时间里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互连互通相互协作的趋势,对信息管理技术提出了新的挑战。概括而言,有以下难以回避的重要问题:
多样化的世界-信息的复杂性
今天信息的复杂性与关系型数据库理论产生的时代已不可同日而语,信息的结构日益复杂,随着个性化服务等需求增长,信息的多样性和差异性都大大增加了。而关系型理论在管理信息复杂性方面的不足日益明显。E-R模型本质上是一个二维的模型,通过一系列的二维关系的组合来描述复杂实体对象,每个表所代表的所有实体在建模设计时没有差异性,即使只有一个实体所拥有的属性,也必须为其建立一个字段。因而在很多系统中,我们经常可以看到一张表有数百个字段,而对于每条记录,大多数字段都是空的。如果这种个体间的差异性不是仅仅表现在属性上,而且涉及到结构和关系,则需要为有差异的实体建立不同的表和对应关系。因而今天的许多业务系统往往需要几千张表,甚至数万张表。数据库的结构变十分复杂,数据库中的信息变得难以理解。
多种信息应用方式-信息的可理解性
从某种意义上而言,今天业务系统数据库的信息是业务系统运行的副产物。数据库为支撑特定业务应用的运行而设计,数据库中的数据也只被单一系统使用,所以很少考虑这些信息是否易于理解。然而,今天越来越多的系统需要相互协作、共享信息。信息的可读性,能否易于理解变得日益重要。关系型数据库在此方面存在较大不足,表中的数据不能自我描述,表于表之间的关系在数据中不能直接清晰地体现。从而使得很多系统即