PgSQL · 实战经验 · 分组TOP性能提升44倍

业务背景

按分组取出TOP值，是非常常见的业务需求。

比如提取每位歌手的下载量TOP 10的曲目、提取每个城市纳税前10的人或企业。

传统方法

传统的方法是使用窗口查询，PostgreSQL是支持窗口查询的。

例子

测试表和测试数据，生成10000个分组，1000万条记录。

postgres=# create table tbl(c1 int, c2 int, c3 int);
CREATE TABLE
postgres=# create index idx1 on tbl(c1,c2);
CREATE INDEX
postgres=# insert into tbl select mod(trunc(random()*10000)::int, 10000), trunc(random()*10000000) from generate_series(1,10000000);
INSERT 0 10000000

使用窗口查询的执行计划

postgres=# explain select * from (select row_number() over(partition by c1 order by c2) as rn,* from tbl) t where t.rn<=10;
                                       QUERY PLAN
----------------------------------------------------------------------------------------
 Subquery Scan on t  (cost=0.43..770563.03 rows=3333326 width=20)
   Filter: (t.rn <= 10)
   ->  WindowAgg  (cost=0.43..645563.31 rows=9999977 width=12)
         ->  Index Scan using idx1 on tbl  (cost=0.43..470563.72 rows=9999977 width=12)
(4 rows)

使用窗口查询的结果举例

postgres=# select * from (select row_number() over(partition by c1 order by c2) as rn,* from tbl) t where t.rn<=10;
 rn |  c1  |   c2   | c3
----+------+--------+----
  1 |    0 |   1657 |
  2 |    0 |   3351 |
  3 |    0 |   6347 |
  4 |    0 |  12688 |
  5 |    0 |  16991 |
  6 |    0 |  19584 |
  7 |    0 |  24694 |
  8 |    0 |  36646 |
  9 |    0 |  40882 |
 10 |    0 |  41599 |
  1 |    1 |  14465 |
  2 |    1 |  29032 |
  3 |    1 |  39969 |
  4 |    1 |  41094 |
  5 |    1 |  69481 |
  6 |    1 |  70919 |
  7 |    1 |  75575 |
  8 |    1 |  81102 |
  9 |    1 |  87496 |
 10 |    1 |  90603 |
......

使用窗口查询的效率，20.1秒

postgres=# explain (analyze,verbose,costs,timing,buffers) select * from (select row_number() over(partition by c1 order by c2) as rn,* from tbl) t where t.rn<=10;
                                                                     QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------------------------------
 Subquery Scan on t  (cost=0.43..770563.03 rows=3333326 width=20) (actual time=0.040..20813.469 rows=100000 loops=1)
   Output: t.rn, t.c1, t.c2, t.c3
   Filter: (t.rn <= 10)
   Rows Removed by Filter: 9900000
   Buffers: shared hit=10035535
   ->  WindowAgg  (cost=0.43..645563.31 rows=9999977 width=12) (actual time=0.035..18268.027 rows=10000000 loops=1)
         Output: row_number() OVER (?), tbl.c1, tbl.c2, tbl.c3
         Buffers: shared hit=10035535
         ->  Index Scan using idx1 on public.tbl  (cost=0.43..470563.72 rows=9999977 width=12) (actual time=0.026..11913.677 rows=10000000 loops=1)
               Output: tbl.c1, tbl.c2, tbl.c3
               Buffers: shared hit=10035535
 Planning time: 0.110 ms
 Execution time: 20833.747 ms
(13 rows)

雕虫小技

如何优化？

可以参考我之前写的，使用递归查询，优化count distinct的方法。

本文同样需要用到递归查询，获得分组ID

postgres=# with recursive t1 as (
postgres(#  (select min(c1) c1 from tbl )
postgres(#   union all
postgres(#  (select (select min(tbl.c1) c1 from tbl where tbl.c1>t.c1) c1 from t1 t where t.c1 is not null)
postgres(# )
postgres-# select * from t1;

写成SRF函数，如下

postgres=# create or replace function f() returns setof tbl as $$
postgres$# declare
postgres$#   v int;
postgres$# begin
postgres$#   for v in with recursive t1 as (
postgres$#    (select min(c1) c1 from tbl )
postgres$#     union all
postgres$#    (select (select min(tbl.c1) c1 from tbl where tbl.c1>t.c1) c1 from t1 t where t.c1 is not null)
postgres$#   )
postgres$#   select * from t1
postgres$#   LOOP
postgres$#     return query select * from tbl where c1=v order by c2 limit 10;
postgres$#   END LOOP;
postgres$# return;
postgres$#
postgres$# end;
postgres$# $$ language plpgsql strict;
CREATE FUNCTION

优化后的查询结果例子

postgres=# select * from f();
  c1  |   c2   | c3
------+--------+----
    0 |   1657 |
    0 |   3351 |
    0 |   6347 |
    0 |  12688 |
    0 |  16991 |
    0 |  19584 |
    0 |  24694 |
    0 |  36646 |
    0 |  40882 |
    0 |  41599 |
    1 |  14465 |
    1 |  29032 |
    1 |  39969 |
    1 |  41094 |
    1 |  69481 |
    1 |  70919 |
    1 |  75575 |
    1 |  81102 |
    1 |  87496 |
    1 |  90603 |
......

优化后，只需要464毫秒返回10000个分组的TOP 10。

postgres=# explain (analyze,verbose,timing,costs,buffers) select * from f();
                                                     QUERY PLAN
---------------------------------------------------------------------------------------------------------------------
 Function Scan on public.f  (cost=0.25..10.25 rows=1000 width=12) (actual time=419.218..444.810 rows=100000 loops=1)
   Output: c1, c2, c3
   Function Call: f()
   Buffers: shared hit=170407, temp read=221 written=220
 Planning time: 0.037 ms
 Execution time: 464.257 ms
(6 rows)

小结

传统的方法使用窗口查询，输出多个每个分组的TOP 10，需要扫描所有的记录。效率较低。
由于分组不是非常多，只有10000个，所以可以选择使用递归的方法，用上索引取TOP 10，速度非常快。
目前PostgreSQL的递归语法不支持递归的启动表写在subquery里面，也不支持启动表在递归查询中使用order by，所以不能直接使用递归得出结果，目前需要套一层函数。

时间： 2025-01-03 07:54:17

PgSQL · 实战经验 · 分组TOP性能提升44倍的相关文章

PostgreSQL雕虫小技，分组TOP性能提升44倍

业务背景按分组取出TOP值,是非常常见的业务需求.比如提取每位歌手的下载量TOP 10的曲目.提取每个城市纳税前10的人或企业. 传统方法传统的方法是使用窗口查询,PostgreSQL是支持窗口查询的.例子测试表和测试数据,生成10000个分组,1000万条记录. postgres=# create table tbl(c1 int, c2 int, c3 int); CREATE TABLE postgres=# create index idx1 on tbl(c1,c2); CREAT

刘宏程：紫光华山全新Gen9引入永久性内存存储性能提升34倍

近日,HPE更新了自己的第9代ProLiant服务器产品组合,引入了英特尔最新的Broadwell处理器以及新的永久内存技术,可让服务器的内存作为一个高性能的存储层. 现在的HPE服务器品牌已经隶属于紫光华山旗下,此次产品更新也是蜕变后HPE的首次服务器发布.HPE升级的产品多达20款,同时也是所有服务器升级厂商中涉及型号最多的,应用产品覆盖最广的品牌. 20款服务器升级至E5 V4 紫光华山科技有限公司(原中国惠普有限公司企业集团)工业标准服务器事业部产品市场总监刘宏程表示,此次升级除处理器之

阿里云SSD云盘第二轮公测性能提升20倍

本文讲的是阿里云SSD云盘第二轮公测性能提升20倍6月9日,阿里云开启了"大杀器"SSD云盘的第二轮公测,其IOPS提升到了20000,是当前云盘性能的20倍.同时,盘内数据全部实时落盘,可靠性9个9.尤其适合中大型关系数据库.核心业务系统以及中大型开发测试环境使用.SSD云盘已在杭州地域公测,公测期至7月15日免费使用. IOPS(Input/Output Per Second)即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一,一个普通的7200转的家用磁盘的IOPS

哈佛/MIT学生创造GPU数据库，性能提升70倍

2012年Todd Mostak 在哈佛中东研究中心攻读硕士研究生,他试图为自己的论文主题绘制和处理阿拉伯之春期间发布的4千万Twitter帖子,但处理这些帖子数小时耗费了甚至数天.没有现成的系统能帮助他实现大数据集快速互动分析,于是他一边读MIT的数据库课程,一边开发出了利用GeForce Titan GPU处理数据的并行数据库系统MapD(演示,非论文).基于GFU的数据库系统比基于CPU的数据库性能提升了70倍,而整个硬件只花了5千美元.Todd Mostak计划在开源许可证下发布Map

Nvidia称Tegra3图形性能提升3倍

新浪科技讯北京时间11月9日上午消息,Nvidia今天宣布,该公司的新款Tegra 3处理器图形性能比上一代产品提升3倍,而能耗则降低61%. Tegra 3此前的开发代号为"Project Kal-El",这款四核处理器目前已经投产,并将成为Nvidia在增长迅猛的移动市场投下的最新赌注.以iPad为代表的平板电脑已经开始蚕食PC销量. Nvidia最初是一家PC显示芯片生产商,其目前的多数收入仍然来自这项业务.该公司CEO黄仁勋今年9月预计,采用Tegra 3处理器的设备将于年底

PgSQL · 实战经验 · 如何预测Freeze IO风暴

背景和原理有没有被突发的IO惊到过,有没有见到过大量的autovacuum for prevent wrap. PostgreSQL 的版本冻结是一个比较蛋疼的事情,为什么要做版本冻结呢? 因为PG的版本号是uint32的,是重复使用的,所以每隔大约20亿个事务后,必须要冻结,否则记录会变成未来的,对当前事务"不可见". 冻结的事务号是2 src/include/access/transam.h #define InvalidTransactionId ((Transactio

优化临时表使用，SQL语句性能提升100倍

原载UC技术博客: http://tech.uc.cn/?p=2218 [问题现象] 线上mysql数据库爆出一个慢查询,DBA观察发现,查询时服务器IO飙升,IO占用率达到100%, 执行时间长达7s左右. SQL语句如下: SELECT DISTINCT g.*, cp.name AS cp_name, c.name AS category_name, t.name AS type_name FROMgm_game g LEFT JOIN gm_cp cp ON cp.id = g.cp_i

NGINX引入线程池性能提升9倍

1. 引言正如我们所知,NGINX采用了异步.事件驱动的方法来处理连接.这种处理方式无需(像使用传统架构的服务器一样)为每个请求创建额外的专用进程或者线程,而是在一个工作进程中处理多个连接和请求.为此,NGINX工作在非阻塞的socket模式下,并使用了epoll 和 kqueue这样有效的方法. 因为满负载进程的数量很少(通常每核CPU只有一个)而且恒定,所以任务切换只消耗很少的内存,而且不会浪费CPU周期.通过NGINX本身的实例,这种方法的优点已经为众人所知.NGINX可以非常好地处理百

成人网站性能提升20倍之经验谈

色情业是个大行业.互联网上没有多少网站的流量能和最大的色情网站相匹敌. 要搞定这巨大的流量很难.更困难的是,在色情网站上提供的很多内容都是低延迟的实时流媒体而不是简单的静态视频.但是对于所有碰到过的挑战,我很少看到有搞定过它们的开发人员写的东西.所以我决定把自己在这方面的经验写出来. 问题是什么? 几年前,我正在为当时全世界访问量排名26的网站工作 - 这里不是说的色情网站排名,而是全世界排名. 当时,该网站通过RTMP(Real Time Messaging protocol)协议响应对色情流

猜你喜欢

ASP功能：让用户一访问就转向指定界面

访问一个网站有许多页面,如果用户知道某个页面的链接,可以在浏览器中直接输入URL访问它.但这在一个要求有安全性的站点上是不允许的.我们要求用户必须登录以后才能访问各级页面,有时也确实希望用户 ...

Flash AS：模仿画笔的动画效果实例

效果如下: [AS] 粗度 = 1; 颜色 = "0x000000"; 色 = new Array("0x000000","0xff0000" ...

SEOer做好四个细节使新站在24小时内收录

做seo也有几年时间了,但是也经常在光顾各大站长论坛,发现还是有很多朋友不能掌握如何让百度快速的收录,今天我在这里交大家几个步骤让新站快速的被百度收录,这个方法我用了是没有问题,如果今天上午做的站我下 ...

win8系统如何将极速PDF阅读器设为默认阅读器？

win8系统如何将极速PDF阅读器设为默认阅读器 1.在您的电脑桌面找到您的PDF文档; 2.鼠标经过该文档-----右键-----选择"打开方式"-----"选择默 ...

如何自动调整Excel单元格行高和列宽

方法一 1.用Excel2013打开一篇工作表,选中我们需要调整列宽的单元格,切换到"开始"选项卡,选择"单元格"组中"格式"下的&qu ...

U盘量产的6种启动模式

1.USB-HDD:(占用1个扇区)硬盘仿真模式,DOS启动后显示C:盘,HP(惠普) U盘格式化工具制作的U盘即采用此启动模式.此模式兼容性很高,但对于一些只支持USB-ZIP模式的电脑则无法启 ...

javascript-mxgraph获得一条edge的起点坐标和终点坐标

问题描述 mxgraph获得一条edge的起点坐标和终点坐标 var v1 = graph.insertVertex(parent null 'v1' 0 100 80 30); var v2 = g ...

ios-iOS 如何保存修改后的tableviewcell

问题描述 iOS 如何保存修改后的tableviewcell 调用didSelectRowAtIndexPath改变第一个cell.textLabel.text的值 ,当tableview滑出第一个c ...

Java 中最常见的五个错误

在编程时,开发者经常会遭遇各式各样莫名错误.近日,Sushil Das在 Geek On Java上列举了 Java 开发中常见的 5 个错误,与君共「免」. 1.Null 的过度使用避免过度使用 ...

preload-classes的前世今生(1)

preload-classes的前世今生(1) preloaded-classes 在Zygote初始化的时候,会调用到ZygoteInit的main方法.在注册了ZygoteSocket的控制通道之 ...

论字母导航的重要性，我们来实现一个联系人字母导航列表吧！

论字母导航的重要性,我们来实现一个联系人字母导航列表吧! 说起这个字母导航,我相信大家都不陌生,不论是联系人列表还是城市列表,基本上都是需要字母导航,那我们就有必要来研究一下这个思路的探索了,毕竟这是 ...

微软的开发工具（VS2008，VS2010）是代码级开发工具,有没有更加面向于业务的开发工具？

问题描述更关心实现业务的合理性解决方案解决方案二:顶,我也在寻找解决方案三:有,请看看我的网站<EW-Business业务基础平台>介绍,我们的ERP系统一个人分析.一个人开发,第一 ...

小猴爬台阶问题

小猴爬台阶问题: 有一只小猴很顽皮,喜欢爬台阶,但由于小猴太小,所以它只能一步爬1个或2个台阶.请计算该小猴所有可能的爬行路径. package shuai.study.steps; impo ...

infinitescroll瀑布流在运行之后向下滚动没有出现自动加载，那位牛人给看看啊

问题描述 infinitescroll瀑布流在运行之后向下滚动没有出现自动加载,那位牛人给看看啊 <br> var pageindex = 1;<br> var pagesi ...

勒索病毒泛滥全球数据方舟拯救业务

5月12日起,不法分子利用之前泄露的NSA黑客武器库中"永恒之蓝"攻击程序发起的网络攻击事件,全球范围内接二连三爆发基于Windows网络共享协议进行攻击传播的蠕虫恶意代码,危害极 ...

Voyage 联合创始人目击苹果无人车，推测其计算堆栈集成在传感器中

又有人在硅谷的马路上拍到了苹果正在测试的无人驾驶汽车,这一次不是什么路人甲,而是同在硅谷的自动驾驶初创公司 Voyage 的联合创始人 MacCallister Higgins .该公司已经在圣何塞( ...

经济模式UPS在数据中心的应用（上）

摘要:现代先进的UPS都有经济运行方式,具有经济运行方式的UPS称为"经济模式UPS".经济模式UPS具有最高的效率和最高的可靠性.采用经济模式UPS是数据中心节能的重要措施.文中 ...

关于两个jQuery(js)特效冲突的bug的解决办法_jquery

Problem: 使用jquery,json做一个资源下载的应用,其中用到paginate.js和JSON数据的分页效果,以及jquery.DOMWindow.js的弹窗效果. 但是出现以下bug: ...

求教：不适应MySQL的情况下，如何在finereport中设计PDF文件？

问题描述求教:不适应MySQL的情况下,如何在finereport中设计PDF文件? 请简要概述一下如何设计PDF文件及如何使用MyEclipse导出设PDF文件的过程! 谢谢! 谢谢! 谢谢!

优化体验与触摸分发，CrossApp 更新至 0.3.1

问题描述跨平台**应用开发引擎CrossApp在7月31日下午推出了0.3.1版本,该版本主要优化了各控件的体验,并优化了触摸分发事件,使得0.3.1版本的demo体验终于达到了"原生态& ...

怎样将下面的struts1的形式改成struts2的形式

问题描述怎样将下面的struts1的形式改成struts2的形式packagecom.wy.action;importjava.util.List;importjavax.servlet.http. ...

android gridview自定义下拉刷新，只有头部拉下来了

问题描述 android gridview自定义下拉刷新,只有头部拉下来了解决方案什么意思,表达清楚点解决方案二: 实在不懂什么意思,请表达清楚点解决方案三: 只有headview拉下来然后 ...

建行办理首笔大商所仓单质押业务

从有关方面获悉,日前中国建设银行股份有限公司为浙江远大物产集团有限公办理了1688手(8440吨)LLDPE仓单质押业务,这是建行在大商所办理的首笔标准仓单银行质押业务. 参与办理此次仓单质押业务的有 ...

丁香园CEO李天天：移动医疗是泡沫也不坏

互联网大军近期热捧移动医疗,坊间不少人认为移动医疗崛起的时期到了.而不久前刚刚获得腾讯巨额投资的丁香园CEO李天天则表示,移动医疗行业距崛起还差得很远,但是泡沫也不是坏事. 关于现在过火的移动医疗,李 ...

PHP生成网站桌面快捷方式代码分享_php技巧

PHP生成桌面快捷方式就是这么的简单,大家生成的时候改下你要生成的网站即可. dianji.html代码: 复制代码代码如下: <a href="a.php?url=www.jb51 ...

css ie6 position:fixed无效的解决方法

我用到了css教程的一个属性position:fixed,但遗憾的是在IE6下这个属性不起作用,悲剧的IE6,于是便找解决方案,现把最佳的解决方案拿出来与大家分享,或许不久的将来你能用上. 1.要实现 ...

软文之功非一日炼成 “下笔如有神”还靠写手努力

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅当下网络营销中的软文攻势,就如同战 ...

有IBM Guardium 看清谁动了我的数据

数据库作为非常重要的存储工具,里面往往会存放着包括金融财政.知识产权.企业数据等方方面面的,大量的有价值或敏感信息和内容.因此,数据库往往会成为黑客们的主要攻击对象.就在上个月的3日,土耳其爆发重大数 ...

sql Union和Union All的使用方法_数据库其它

UNION的一个限制是两个 SQL 语句所产生的栏位需要是同样的资料种类.另外,当我们用 UNION这个指令时,我们只会看到不同的资料值 (类似 SELECT DISTINCT). union只是将两 ...

未来战争，军事大数据决定主动权

信息战打的就是信息流的战争.从整个信息流的转换来看,谁控制了最真实的信息流,谁就控制了这场战争的主导权.夺取制信息权已经成为夺取制空权.制海权的先决条件,是未来战争胜败的决定性因素. 随着信息化不断发 ...

热搜