数据库的方向 - 行vs列

前言:

转载的好文不多,但此篇的确是难得一见的好文,如若不信,请仔细阅读。

此篇文章没有波涛汹涌的起伏,没有繁多的代码,只有悠然自得的文笔。

因此,分享此文给大家。

翻译原文链接:https://www.ibm.com/developerworks/community/blogs/IBMi/entry/database?lang=en

英文原文链接:http://ibmsystemsmag.blogs.com/you_and_i/db2/

数据库的方向 - 行vs列

如果你是一位数据库专家的话,这篇博客可能帮不了你什么。

如果你是一位IT人士,但对数据库技术只知其然的话,这篇博客会很适合你。

如果你是非IT人士,又或者你是我的家人,谢谢你们的阅读,但是显然你应该去寻求更适合你的阅读材料。

如此,可能会对此话题感兴趣的朋友已经减少了。看来你应该是这样一个人,你是非数据库领域的IT专家,但是你深知数据库的重要性,你可能非常想更多的了解一些当前IT界正在热烈讨论的数据库热门话题。

我可以很坦率的告诉大家,虽然我在IBM i的很多个部门工作过,但是我并不是一个DB2的开发人员。所以我会定期的去DB2团队寻求一些聪明的数据库专家给我一些比较高级的数据库指导。尤其,我非常想知道,为什么近来如此多行业都在谈论“列式存储”数据库的原因。所以,我找到了Mark Anderson。 众所周知,Mark是一位杰出的工程师,现在是DB2 for i的首席架构师。下面,我将分享一下我学到的知识。

今天的主题也如同很多有关数据库讨论一样主要集中于性能方面。即,新兴的列式数据库和传统的行式数据库在性能方面的比较。

顾名思义,这两种数据库架构在存贮数据时的方式是大相径庭的。在行式数据库中,每一行中的每一块数据都是紧挨着另一块数据存放在硬盘中。一般情况下,你可以认为每一行存贮的内容就是硬盘中的一组连续的字节。如果你记得DB 101(你已经学习了数据库的介绍课程,对吧?)中介绍的数据库中每一行都是用来记录一些实体信息的。为了方便我们的讨论,我们假设每一行都包含一个用户的信息,每个用户的所有属性都整块儿存储在硬盘上。如下图所示,虚拟表(或者数组)中的列用来存储每个属性。

在硬盘上,大量的页面用来存储所有的数据。我们假设数据库中的每一行的信息都存储在同一页上。在这种情况下,每一页都能保存一个用户的所有信息。在上边的例子中,Alice的所有信息都存储在一个页面中。如果需要获取或更新Alice的信息,那么某一时刻在内存中仅需存储关于Alice的单一页面。

虽然我还没有提到,但是你可以想象,如果是基于列的数据库,所有的数据都是以列的形式存储的。回到之前的例子,假设每一列的存储对应一个页面。如下图所示,所有的ZIP code将会存储到一个页面中,而所有的“2013 Total Order”则会存储在另一个页面中。

(嘿,所有数据库专家可能会就此停留,继而对用户的表设计提出意见,但抱歉,我并不是数据库架构师,这仅仅只是一个教学用例。)

现在,我们言归正传。

所有的数据库(实际上是所有的运算),当它所需要的数据驻留在内存中时其工作速度是最快的。当然正常情况下,数据不会在内存中,它们会被放到别的地方,当数据库调用它们时,它们才会被放到内存中。所以,如果你使用的是行式数据库,那么你对一行数据进行操作时,数据库的性能会是最好的。在上面的例子中,仅一个页面被放到了内存中。(这只是一个示例,事实上,操作系统会带来不止一页的数据,稍后详细说明)

另一方面,如果你的数据库是基于行的,但是你要想得到所有数据中,某一列上的数据来做一些操作,这就意味着你将花费时间去访问每一行,可你用到的数据仅是一行中的小部分数据。若此时你使用了列式的数据库,那就可以方便快捷的获取数据,因为每一列的信息都是存储在一起的。例如,所有的“2013 Total Order”信息都是存储在同一列中的。

可关键在于你使用列式数据库时,当你想要得到Alice的所有信息时,你又必须要读取大量的列(页面)来获取所有的数据。

正因为此,才有了这些天有关列式数据库的讨论。

如果你还是没有很好理解的话,我们下面会有更加详细的介绍。

到目前为止,几乎所有的数据库都是基于行的数据库,此类数据库对大多数的传统业务都是非常有效的。数据库专家们将大部分的数据库工作负载称为OLTP–在线事务处理。OLTP工作负载是数据库现有业务的关键业务。一般而言,这些应用程序在使用行数据库时会有更好的表现,因为其工作负载趋向于单一实体的多个属性(存储在很多的列中)。由于这些应用程序都是基于行工作的,所以在使用时,从硬盘中获取的页面数量是最小的。

如果能对列中的数据进行有效的处理,某些工作负载会运行得更高效。在线分析处理(OLAP)工作负载常常需要收集列中的数据。例如,如果你想要知道标记为“2013 Total Order”列中的所有值,当你使用基于列的数据库时,你可以将这一列放到内存中并统计所有值。但当使用的是基于行的数据库时,就必须去访问每一行而获取对应的数据。

当然,事实并非如此。基于行的数据库,例如DB2 for i,已经增加了一些方法,这些方法可以使得,诸如“sum a column”这样简单的操作,或者更复杂一些的OLAP分析也可以很高效的得到处理。例如,DB2 for i有两种结构,分别是编码向量索引(EVIs)和物化查询表(MQTs),对于这样的操作都有很好的效果。并且DB2 for i给用户的数据是成批的(一次读取很多行),而不是一次一个。除此之外,用户自定义的方法也可以用来提高性能。IBM的存储管理组件也是非常智能的,值得一提的是,它实现了单级存储。正因为它如此的智能,所以在用户提出请求前,已经将数据读取到内存中。正因为在很多的OLTP工作负载中都要求顺序地通过行,而DB2 for i在需要数据之前,已将行数据批量的读取到内存中,可见这个功能是非常重要的。

另一方面,单纯给列式存储的表加索引,也不能使OLTP很高效。Mark曾经说过“这就像把很多的矮胖子放在一起”。行信息分散在很多存储页中。即使整个数据库都存放在内存里,也需要消耗大量的CPU资源,来将一行中的所有列拼接起来。

下面总结这一课的关键内容。在选择使用哪种数据库时,问自己这样一个问题,哪种工作负载是你的数据库需要支持的最关键的工作负载。尽管可能你两种操作都需要,但是当核心业务是OLTP时,一个行式的数据库,再加上数十年积累的优化操作,可能是最好的选择。如果你的企业并不需要快速处理OLTP业务,但需要可以快速处理OLAP时,那么一个列式的数据库将会成为你的不二选择。

如果你需要同时处理两种业务,且要求它们都能高效处理时,可以去了解两种种架构相关的混合技术。你可以选择一种,又或者是使用两种架构的结合来满足你的需求。无论你选择了何种类别,都要确保证这一解决方案是稳定的,这可是要用来切实为企业数据服务的。

到此,尊敬的读者们, DB 102就结束了.现在,当你再读到有关列式数库的文章时,就可以理解其引起讨论的原因了。

在下次的讨论中,我们将进一步学习。

原文作者:Steve Will

翻译:周松文

转载请注明本文出处:大学之旅_谙忆

Github:https://chenhaoxiang.github.io/

时间: 2024-09-29 10:00:18

数据库的方向 - 行vs列的相关文章

sql-sysbase 数据库行转列

问题描述 sysbase 数据库行转列 a/b两张表,是一对多的关系,一条sql语句,查询出a表和对应b表的字段拼接 a表: id name 1 小明 2 小红 3 小丽 b表: id aid bname 1 1 ba 2 1 bv 3 3 vb 4 3 vc 结果: a.id a.name b.id b.bname 1 小明 1,2 ba,bv 2 小红 3 小丽 3,4 vb,vc 解决方案 数据库行转列数据库题:行转列数据库行转列的sql语句 解决方案二: select a.id, a.n

数据库行转列的sql语句(zt)

转载:http://www.cnblogs.com/Charles2008/archive/2008/03/04/1090162.html 问题描述 假设有张学生成绩表(CJ)如下 Name Subject Result 张三 语文 80 张三 数学 90 张三 物理 85 李四 语文 85 李四 数学 92 李四 物理 82 现在 想写 sql 语句     查询后结果 为    姓名 语文 数学 物理 张三 80 90 85 李四 85 92 82       该怎么实现 ? 研究意义   

asp.net 中 如何将数据库中某一个字段的值显示在8行8列的表格中,点击某个表格的值时还能编辑

问题描述 asp.net 中 如何将数据库中某一个字段的值显示在8行8列的表格中,点击某个表格的值时还能编辑 asp.net 中 如何将数据库中某一个字段的值显示在8行8列的表格中,点击某个表格的值时还能编辑 解决方案 你是要某个字段显示在8行8列的表格中还是说读取数据出来之后是个8行8列的表格,然后显示进去? 可以直接用GRIDVIEW,或者直接用html拼接,至于修改,gridview有自带的commond方法 解决方案二: 数据库有64条记录,把64个记录中的score字段的值全部显示在表

数据库行转列-SQL行转列的问题,求各位大大帮助下

问题描述 SQL行转列的问题,求各位大大帮助下 数据库中保存的是: 单据类型 审核级次 审核人 A 1级 张三 A 1级 李四 A 2级 王五 求查出的数据为: 单据类型 1级审核人 2级审核人 A 张三 王五 A 李四 该如何写代码啊,小白求助!!

Oracle 数据库针对表主键列并发导致行级锁简单演示_oracle

本文内容 •软件环境 •简单演示 Oracle 数据库并发导致行级锁 本文简单演示针对表主键并发导致的行级锁.并发是两个以上的用户对同样的数据进行修改(包括插入.删除和修改).锁的产生是因为并发.没有并发,就没有锁.并发的产生是因为系统需要,系统需要是因为用户需要. 软件环境 -------------------------------------------------------------------------------- •Windows 2003 Server •Oracle 1

mssql 数据库表行转列,列转行终极方案

复制代码 代码如下: --行转列问题 --建立測試環境 Create Table TEST (DATES Varchar(6), EMPNO Varchar(5), STYPE Varchar(1), AMOUNT Int) --插入數據 Insert TEST Select '200605', '02436', 'A', 5 Union All Select '200605', '02436', 'B', 3 Union All Select '200605', '02436', 'C', 3

mssql 数据库表行转列,列转行终极方案_MsSql

复制代码 代码如下: --行转列问题 --建立測試環境 Create Table TEST (DATES Varchar(6), EMPNO Varchar(5), STYPE Varchar(1), AMOUNT Int) --插入數據 Insert TEST Select '200605', '02436', 'A', 5 Union All Select '200605', '02436', 'B', 3 Union All Select '200605', '02436', 'C', 3

关于Oracle数据库中行迁移/行链接的问题

oracle|链接|数据|数据库|问题 一.行迁移/行链接的介绍 在实际的工作中我们经常会碰到一些Oracle数据库性能较低的问题,当然,引起Oracle数据库性能较低的原因是多方面的,我们能够通过一些正确的设计和诊断来尽量的避免一些Oracle数据库性能不好,Row Migration (行迁移) & Row Chaining (行链接)就是其中我们可以尽量避免的引起Oracle数据库性能低下的潜在问题.通过合理的诊断行迁移/行链接,我们可以较大幅度上提高Oracle数据库的性能. 那究竟什么

SQL Server中如何动态行转列

SQL Server 动态行转列(参数化表名.分组列.行转列字段.字段值) 一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 实现代码(SQL Codes) 方法一:使用拼接SQL,静态列字段: 方法二:使用拼接SQL,动态列字段: 方法三:使用PIVOT关系运算符,静态列字段: 方法四:使用PIVOT关系运算符,动态列字段: 扩展阅读一:参数化表名.分组列.行转列字段.字段值: 扩展阅读二:在前面的基础上加入条件过滤: 参考文献(Refe