PgSQL · 源码分析 · PG优化器物理查询优化

在之前的一篇月报中，我们已经简单地分析过PG的优化器（PgSQL · 源码分析 · PG优化器浅析），着重分析了SQL逻辑优化，也就是尽量对SQL进行等价或者推倒变换，以达到更有效率的执行计划。本次月报将会深入分析PG优化器原理，着重物理查询优化，包括表的扫描方式选择、多表组合方式、多表组合顺序等。

表扫描方式

表扫描方式主要包含顺序扫描、索引扫描以及Tid扫描等方式，不同的扫描方式

Seq scan，顺序扫描物理数据页

postgres=> explain select * from t1 ;
                     QUERY PLAN
-----------------------------------------------------
 Seq Scan on t1  (cost=0.00..14.52 rows=952 width=8)

Index scan，先通过索引值获得物理数据的位置，再到物理页读取

postgres=> explain select * from t1 where a1 = 10;
                             QUERY PLAN
--------------------------------------------------------------------
 Index Scan using t1_a1_key on t1  (cost=0.28..8.29 rows=1 width=8)
   Index Cond: (a1 = 10)

Tid scan，通过page号和item号直接定位到物理数据

postgres=> explain select * from t1 where ctid='(1,10)';
                    QUERY PLAN
--------------------------------------------------
 Tid Scan on t1  (cost=0.00..4.01 rows=1 width=8)
   TID Cond: (ctid = '(1,10)'::tid)

选择度计算

全表扫描选择度计算

全表扫描时每条记录都会返回，所以选择度为1，所以rows=10000

EXPLAIN SELECT * FROM tenk1;

                         QUERY PLAN
-------------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..458.00 rows=10000 width=244)

 SELECT relpages, reltuples FROM pg_class WHERE relname = 'tenk1';

 relpages | reltuples
----------+-----------
      358 |     10000

整型大于或者小于选择度计算

EXPLAIN SELECT * FROM tenk1 WHERE unique1 < 1000;

                                   QUERY PLAN
--------------------------------------------------------------------------------
 Bitmap Heap Scan on tenk1  (cost=24.06..394.64 rows=1007 width=244)
   Recheck Cond: (unique1 < 1000)
   ->  Bitmap Index Scan on tenk1_unique1  (cost=0.00..23.80 rows=1007 width=0)
         Index Cond: (unique1 < 1000)

SELECT histogram_bounds FROM pg_stats
WHERE tablename='tenk1' AND attname='unique1';

                   histogram_bounds
------------------------------------------------------
 {0,993,1997,3050,4040,5036,5957,7057,8029,9016,9995}
selectivity = (1 + (1000 - bucket[2].min)/(bucket[2].max - bucket[2].min))/num_buckets
            = (1 + (1000 - 993)/(1997 - 993))/10
            = 0.100697
rows = rel_cardinality * selectivity
     = 10000 * 0.100697
     = 1007  (rounding off)

字符串等值选择度计算

EXPLAIN SELECT * FROM tenk1 WHERE stringu1 = 'CRAAAA';

                        QUERY PLAN
----------------------------------------------------------
 Seq Scan on tenk1  (cost=0.00..483.00 rows=30 width=244)
   Filter: (stringu1 = 'CRAAAA'::name)
SELECT null_frac, n_distinct, most_common_vals, most_common_freqs FROM pg_stats
WHERE tablename='tenk1' AND attname='stringu1';
null_frac         | 0
n_distinct        | 676
most_common_vals|{EJAAAA,BBAAAA,CRAAAA,FCAAAA,FEAAAA,GSAAAA,JOAAAA,MCAAAA,NAAAAA,WGAAAA}
most_common_freqs | {0.00333333,0.003,0.003,0.003,0.003,0.003,0.003,0.003,0.003,0.003}
selectivity = mcf[3]
            = 0.003
rows = 10000 * 0.003
     = 30

备注：如果值不在most_common_vals里面，计算公式为：

selectivity = (1 - sum(mvf))/(num_distinct - num_mcv)

cost计算

代价模型:总代价=CPU代价+IO代价+启动代价

postgres=> explain select * from t1 where a1 > 10;
                     QUERY PLAN
-----------------------------------------------------
 Seq Scan on t1  (cost=0.00..16.90 rows=942 width=8)
   Filter: (a1 > 10)
(2 rows)
其中：
postgres=> select relpages, reltuples from pg_class where relname = 't1';
 relpages | reltuples
----------+-----------
        5 |       952
(1 row)
cpu_operator_cost=0.0025
cpu_tuple_cost=0.01
seq_page_cost=1
random_page_cost=4

总cost = cpu_tuple_cost * 952 + seq_page_cost * 5 + cpu_operator_cost * 952
= 16.90
其他扫描方式cost计算可以参考如下函数：

postgres=> select amcostestimate,amname from pg_am ;
  amcostestimate  | amname
------------------+--------
 btcostestimate   | btree
 hashcostestimate | hash
 gistcostestimate | gist
 gincostestimate  | gin
 spgcostestimate  | spgist
(5 rows)

表组合方式

Nest Loop

SELECT  * FROM     t1 L, t2 R WHERE  L.id=R.id

假设：

M = 20000 pages in L, pL = 40 rows per page,
N = 400 pages in R, pR = 20 rows per page.

select relpages, reltuples from pg_class where relname=‘t1’

L和R进行join

for l in L do
  for r in R do
    if rid == lid  then ret += (r, s)

对于外表L每一个元组扫描内表R所有的元组
总IO代价: M + (pL * M) * N = 20000 + (4020000)400
= 320020000

MergeJoin

主要分为3步:

(1) Sort L on lid 代价MlogM

(2) Sort R on rid 代价NlogN

(3) Merge the sorted L and R on lid and rid 代价M+N

HashJoin

使用HashJoin的前提是其中假设一个表可以完全放在内存中，实际过程中可能统计信息有偏差，优化器认为一个表可以放到内存中，事实上数据在内存中放不下，需要使用临时文件，这样会降低性能。

表的组合顺序

不同的组合顺序将会产生不同的代价，想要获得最佳的组合顺序，如果枚举所有组合顺序，那么将会有N!的排列组合，计算量对于优化器来说难以承受。PG优化器使用两种算法计算更优的组合顺序，动态规划和遗传算法。对于连接比较少的情况使用动态规划，否则使用遗传算法。

动态规划求解过程

PG优化器主要考虑将执行计划树生成以下三种形式:

动态规划的思想可以参考百度百科动态规划，主要将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。具体应用在表组合顺序上，则是先考虑单表最优访问访问，然后考虑两种组合，再考虑多表组合，最终得到更优的解。

时间： 2024-07-30 13:06:01

PgSQL · 源码分析 · PG优化器物理查询优化的相关文章

PgSQL · 源码分析 · PG优化器浅析

在使用PostgreSQL数据库过程中,对SQL调优最常用的手段是使用explain查看执行计划,很多时候我们只关注了执行计划的结果而未深入了解执行计划是如何生成的.优化器作为数据库核心功能之一,也是数据库的"大脑",理解优化器将有助于我们更好地优化SQL,下面将会为大家解开PostgreSQL优化器神秘的面纱. SQL执行过程在PG数据库中,对于DDL语句无需进行优化,到utility模块处理,对于DML语句需要到优化器中处理,一个用户连接从接收SQL到执行的流程如下: 查询重写

PgSQL · 源码分析 · PG 优化器中的pathkey与索引在排序时的使用

概要 SQL在PostgreSQL中的处理,是类似于流水线方式的处理,先后由: 词法.语法解析,生成解析树后,将其交给语义解析语义解析,生成查询树,将其交给Planner Planner根据查询树,生成执行计划,交给执行器执行器执行完成后返回结果数据库优化器在生成执行计划的时候,优化器会考虑是否需要使用索引,而使用了索引之后,则会考虑如何利用索引已经排过序的特点,来优化相关的排序,比如ORDER BY / GROUP BY等. 先来看个索引对ORDER BY起作用的例子: postgres

PgSQL · 源码分析 · PG中的无锁算法和原子操作应用一则

原子操作概述近年来随着服务器上CPU核数的不断增加,无锁算法(Lock Free)越来越广泛的被应用于高并发的系统中.PostgreSQL 做为世界上最高级开源数据库也在9.5时引入了无锁算法.本文先介绍了无锁算法和原子操作在PostgreSQL中的具体实现, 再通过一个Patch来看一下在PostgreSQL中是如何利用它来解决实际的高并发问题的. 无锁算法是利用CPU的原子操作实现的数据结构和算法来解决原来只能用锁才能解决的并发控制问题. 众所周知,在一个并发系统中特别是高并发的场景下,锁

PgSQL · 源码分析 · 优化器逻辑推理

背景知识数据库优化器需要具备逻辑推理能力,而且越强越好,为什么呢? 举一些例子, 通过已知的一个人讲的是真话,推理另一个人讲的一定是真话或一定是假话. 例子1: 假设预先提供了 a > 10 是真话可以推理出 a < 1 一定是假话例子2: 假设预先提供了 a > 10 是真话无法推理出 a < 100 一定是真话或假话例子3: 假设预先提供了 a 是空是真话可以推理出 a 不是空一定是假话例子4: 假设预先提供了 a <>100 是真话可以推理出

PgSQL · 源码分析· pg_dump分析

PostgreSQL本身提供了逻辑导出工具pg_dumpall和pg_dump,其中pg_dumpall导出所有的数据库,pg_dump导出单个数据库,两个工具的用法和参数不再详细介绍,本文从代码层面上对此过程进行分析. 概括地说,逻辑导出要干的事情就是连接对应数据库,读出各个数据库对象的定义和数据,此外还包括comment.服务器配置和权限控制等等,这些数据库对象定义的SQL语句会被写入到对应的dump文件中.其中可以设置只导出模式或者只导出数据,默认是导出模式和数据,这样就可以支持分步导出和

PgSQL · 源码分析 · AutoVacuum机制之autovacuum launcher

背景根据之前月报的分析,PostgreSQL中的MVCC机制(详见月报)同时存储新旧版本的元组,对于经常更新的表来说,会造成表膨胀的情况.为了解决这个问题,PostgreSQL 引入了VACUUM和ANALYZE命令,并且引入了AutoVacuum自动清理. 在PostgreSQL中,AutoVacuum自动清理操作包括: 删除或重用无效元组的磁盘空间更新数据统计信息,保证执行计划更优更新visibility map,加速index-only scans (详见文档) 避免XID 回卷造成

《深入理解SPARK：核心思想与源码分析》一书正式出版上市

自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售,欢迎感兴趣的同学购买.我开始研究源码时的Spark版本是1.2.0,经过7个多月的研究和出版社近4个月的流程,Spark自身的版本迭代也很快,如今最新已经是1.6.0.目前市面上另外2本源码研究的Spark书籍的版本分别是0.9.0版本和1.2.0版本,看来这些书的作者都与我一样,遇到了这种问题.由于研究和

深入理解Spark：核心思想与源码分析

大数据技术丛书深入理解Spark:核心思想与源码分析耿嘉安著图书在版编目(CIP)数据深入理解Spark:核心思想与源码分析/耿嘉安著. -北京:机械工业出版社,2015.12 (大数据技术丛书) ISBN 978-7-111-52234-8 I. 深- II.耿- III.数据处理软件 IV. TP274 中国版本图书馆CIP数据核字(2015)第280808号深入理解Spark:核心思想与源码分析出版发行:机械工业出版社(北京市西城区百万庄大街22号邮政编码:100037)

memcached客户端源码分析

转载:memcached客户端源码分析 memcached的Java客户端有好几种,http://code.google.com/p/memcached/wiki/Clients 罗列了以下几种 Html代码 spymemcached * http://www.couchbase.org/code/couchbase/java o An improved Java API maintained by Matt Ingenthron and other

猜你喜欢

探讨关于禁止同一用户在同一时间在不同机器重复登陆的问题

问题|重复关于如何禁止同一用户在同一时间在不同机器重复登陆的问题我是这样想的,如果有不对的地方还请各位指正,大伙共同探讨. 主要想在Application级解决问题.不用数据库的原因是,用数据库判断 ...

恰维网络谈新站上线必做的五条规定

新的网站想在上线以后得到好的排名,今天恰维网络给大家分析了几条新站上线的几条规定,看看自己的网站是否做好下面的五条规定,希望能给大家带来一定的帮助. 第一,网站结构符合蜘蛛的抓取习性. 网站结构主要分 ...

Oracle性能视图：v$sort_usage_temp

1.表结构 SQL> desc v$sort_usage 名称是否为空? 类型 ------------------- ...

如何解决复制中发布服务器和订阅服务器内容不一致的问题

在事务复制的过程中,有时候会由于各种各样的原因导致发布服务器和订阅服务器的数据不一致,造成这种情况往往是由于以下几种原因之一: 某个Agent运行出现错误或者Agent进程崩溃比较大型的发布是使用了 ...

教你五分钟打造一个文字时空洞

新手教程,教你五分钟打造一个文字时空洞!本教程为翻译+改造,原作者是个外国人,已经不记得是谁了,有知道的欢迎补充.本教程然将教你如何创作一个富有空间感的字体图案. 分类: PS文字教程

VBScript中On Error语句用法小结

VBScript语言提供了两个语句和一个对象来处理"运行时错误",如下,1.On Error Resume Next语句,2.On Error Goto 0语句,3.Err对象 ...

百度贴吧签名档怎么弄

百度贴吧内容丰富,方便交流,一个类型的贴吧聚集了同一种爱好的人,有一个非常有个性的签名档,能够让你一下子就容易被大家记住. 那怎样才能设置了,可能有一部分人不知道怎么弄,下面就做了一个图文教程,末尾是 ...

Win7系统如何优化固态硬盘

具体方法如下: 一.AHCI硬盘模式可提高硬盘性能,确定你的固态硬盘是运行在AHCI模式下,打开"HKEY_LOCAL_MACHINESYSTEMCurrentControlSetSer ...

新浪微博什么是友情链接？

友情链接是提供给企业添加网页或网站相关链接的模块,位于企业主页左侧边栏,企业可在友情链接模块中添加企业官网地址及其他信息的相应链接.

bmp-关于BMP24位位图显示的问题

问题描述关于BMP24位位图显示的问题 VC写的数字图像显示,显示出来的图像是歪的,接着再点保存的话就会变成其他格式的文件,是为什么?(新手求教), 解决方案 24位位图转4位彩色图(BMP)实现1 ...

ios-给CGMutableRefPath添加边框颜色

问题描述给CGMutableRefPath添加边框颜色 drawRect的代码如下: CGMutablePathRef pathRef = CGPathCreateMutable(); CGPath ...

大数据漫谈：Spark如何引燃机器学习？

文章讲的是大数据漫谈:Spark如何引燃机器学习,如今,再讨论大数据,无论是互联网行业还是传统行业似乎都有话说.大数据改变了很多,也带来了很多.人工智能作为大数据的一个重要分支,也纷纷被各大企业划入未 ...

数据库 pb datawindow-PB小程序窗口连接数据库提示datawindow error

问题描述 PB小程序窗口连接数据库提示datawindow error 打开这个小程序窗口提示:datawindow errordatabase transaction information not ...

从数据看“豆瓣”兴衰

从2005年3月6日正式上线算起,豆瓣诞生已将十年,此时稍作回顾或许也正合宜.在这十年间,对豆瓣自不免有许多批评和质疑(这些声音恐怕大多来自它的用户),但不可否认,它堪称创造了历史.豆瓣的模式在中国迄 ...

Mina框架IoSession详解

通过Mina官网文档,我们可以看到,有如下几个状态: Connected : the session has been created and is available Idle : the ses ...

佳明3750超薄导航仪

佳明(Garmin)3750是一款超薄导航仪,产品的外观让人眼前一亮,佳明3750使用4.3吋的电容触摸屏幕,这在导航仪中是不常见的,在功能上,3750内置正版导航地图,支持MP3播放功能,可以作为电 ...

php中&amp;amp;not怎样正常输出

问题描述 php中&not怎样正常输出我在php中想输出字符串"&not"却显示成了"?",怎样能正常输出呢?? 解决方案 echo html ...

地方社区网如何结合当地城市发展现实引爆热点聚焦

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅前不久看到了一篇关于<二三线 ...

myeclipse-Myeclipse 2015在部署项目时出现异常

问题描述 Myeclipse 2015在部署项目时出现异常 org.apache.catalina.LifecycleException: Failed to start component [Sta ...

《Storm分布式实时计算模式》——3.3　Trident spout

3.3 Trident spout 让我们先来看topology中的spout.和Storm相比,Trident引入了"数据批次"(batch)的概念.不像Storm的spout, ...

盘点数据大牛公司

数据挖掘.海量存储.数据仓库.大数据.商业智能.数据分析.平台--经历过几十年的发展演变后,数据库管理系统已经发展成为一门内容丰富的学科,造就了一个庞大的软件产业. 有关数据管理和分析的新需求推陈出新 ...

外媒：语音消息能成为苹果iWatch王牌应用吗？

硅谷网讯据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,瑞银证券分析师史蒂文•米卢诺维奇(Steven Mil ...

MySQL read lock.. 利用 select .. for update 解决.

1. 创建表 schedual , 用于登记在某段时间内某个某用户预约信息, 中具有 start, end 列. 用户如需进行预约, 则需登记开始与结束时间, 另外, 为避免时间段上的重复使用, 我 ...

老狐狸同程：炮轰携程后为何携程投资了它？

一年前的今天,同程网CEO吴志祥炮轰携程垄断,一年后携程投资了同程网.剧情跌宕,这是肿么回事? 我们先回顾下: 2013年4月19日,猎云网报道了<同程网向如家发公开感谢信隔山打牛炮轰携程& ...

外资退场第一例：邓普顿放弃QFII资格

放弃QFII资格? 6月16日,富兰克林邓普顿投资基金表示,旗下的邓普顿资产管理有限公司(下称"邓普顿")宣布放弃QFII资格,理由是"使用频率不高".这是自2 ...

跟老齐学Python之有容乃大的list(1)_python

前面的学习中,我们已经知道了两种python的数据类型:int和str.再强调一下对数据类型的理解,这个世界是由数据组成的,数据可能是数字(注意,别搞混了,数字和数据是有区别的),也可能是文字.或者是 ...

jquery中hide在IE下对option无效

用jquery隐藏元素很简单,就是hide方法,$("#example").hide(),基本上所有元素都可以,但是在IE内核的浏览器上,hide方法对下拉框的option选项无效 ...

jquery得到font-size属性值实现代码_jquery

复制代码代码如下: var fontSize = $(this).attr('style',function(i,s){ return s.replace(/font-size:\s*(\d+.{0 ...

在struts2的action中如何获得上传文件在客户端的路径？

问题描述在struts2的action中如何获得上传文件在客户端的路径? 解决方案解决方案二:ServletActionContext.getServletContext().getRealPat ...

iPhone产业链调查：新机预定破纪录蓝宝石跌下神坛

"苹果搅动的市场难以估计." 9月10日,作为一年一度科技盛会,苹果新品发布会吸引的不仅仅是果粉和科技界的目光,国内外资本市场同样对其倍加关注. 出于对苹果新品态度不一,发布会当日 ...

热搜