PostgreSQL 时序数据案例 - 时间流逝, 自动压缩, 同比\环比

标签

PostgreSQL , 时序数据 , rrd , rrdtool , round robin database , 自动压缩 , CTE , dml returning , 环比 , 同比 , KNN


背景

时序数据库一个重要的特性是时间流逝压缩,例如1天前压缩为5分钟一个点,7天前压缩为30分钟一个点。

PostgreSQL 压缩算法可定制。例如简单的平均值、最大值、最小值压缩,或者基于旋转门压缩算法的压缩。

《[未完待续] SQL流式案例 - 旋转门压缩(前后计算相关滑窗处理例子)》

《旋转门数据压缩算法在PostgreSQL中的实现 - 流式压缩在物联网、监控、传感器等场景的应用》

本文介绍一种简单压缩的场景,类似RRD数据库,按时间维度,压缩为 平均值、最大值、最小值、总和、记录数 等维度。

本文还介绍了窗口查询、同比、环比UDF(含KNN计算)、按时间分组均匀写入、等高级SQL用法。

设计

明细表

create table tbl (
  id serial8 primary key,  -- 主键
  sid int,                 -- 传感器ID
  hid int,                 -- 指标ID
  val float8,              -- 采集值
  ts timestamp             -- 采集时间
);   

create index idx_tbl on tbl(ts);

压缩表

1、5分钟级压缩表

create table tbl_5min (
  id serial8 primary key,  -- 主键
  sid int,                 -- 传感器ID
  hid int,                 -- 指标ID
  val float8,              -- 继承,平均值,方便做环比分析
  ts timestamp,            -- 继承,开始时间,方便做环比分析
  val_min float8,              -- 最小值
  val_max float8,              -- 最大值
  val_sum float8,              -- 和
  val_count float8,            -- 采集次数
  ts_start timestamp,      -- 区间开始时间
  ts_end timestamp         -- 区间结束时间
);   

alter table tbl_5min inherit tbl;

2、30分钟级压缩表

create table tbl_30min (
  id serial8 primary key,  -- 主键
  sid int,                 -- 传感器ID
  hid int,                 -- 指标ID
  val float8,              -- 继承,平均值,方便做环比分析
  ts timestamp,            -- 继承,开始时间,方便做环比分析
  val_min float8,              -- 最小值
  val_max float8,              -- 最大值
  val_sum float8,              -- 和
  val_count float8,            -- 采集次数
  ts_start timestamp,      -- 区间开始时间
  ts_end timestamp         -- 区间结束时间
);   

alter table tbl_30min inherit tbl;

3、5分钟级压缩语句

with tmp1 as (
  delete from only tbl where ts <= now()-interval '1 day' returning *
)
insert into tbl_5min
  (sid, hid, val, ts, val_min, val_max, val_sum, val_count, ts_start, ts_end)
select sid, hid, avg(val) as val, min(ts) as ts, min(val) as val_min, max(val) as val_max, sum(val) as val_sum, count(*) as val_count, min(ts) as ts_start, max(ts) as ts_end from
tmp1
group by sid, hid, substring(to_char(ts, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts, 'yyyymmddhh24mi'), 11, 2)::int / 5) * 5)::text, 2, '0');

4、30分钟级压缩语句

with tmp1 as (
  delete from only tbl_5min where ts_start <= now()-interval '1 day' returning *
)
insert into tbl_30min
  (sid, hid, val_min, val_max, val_sum, val_count, ts_start, ts_end)
select sid, hid, min(val_min) as val_min, max(val_max) as val_max, sum(val_sum) as val_sum, sum(val_count) as val_count, min(ts_start) as ts_start, max(ts_end) as ts_end from
tmp1
group by sid, hid, substring(to_char(ts_start, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts_start, 'yyyymmddhh24mi'), 11, 2)::int / 30) * 30)::text, 2, '0');

DEMO

1、写入明细测试数据,1亿条,分布到10天。

insert into tbl (sid, hid, val, ts) select random()*1000, random()*5, random()*100,   -- 1000个传感器,每个传感器5个指标。
  now()-interval '10 day' + (id * ((10*24*60*60/100000000.0)||' sec')::interval)   -- 倒推10天为起点 + (id * 每条记录的耗时)
from generate_series(1,100000000) t(id);

2、5分钟压缩调度,1天前的数据,每隔1小时调度一次以下SQL。

with tmp1 as (
  delete from only tbl where ts <= now()-interval '1 day' returning *
)
insert into tbl_5min
  (sid, hid, val, ts, val_min, val_max, val_sum, val_count, ts_start, ts_end)
select sid, hid, avg(val) as val, min(ts) as ts, min(val) as val_min, max(val) as val_max, sum(val) as val_sum, count(*) as val_count, min(ts) as ts_start, max(ts) as ts_end from
tmp1
group by sid, hid, substring(to_char(ts, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts, 'yyyymmddhh24mi'), 11, 2)::int / 5) * 5)::text, 2, '0');

3、30分钟压缩调度,7天前的数据,每隔1天调度一次以下SQL。

with tmp1 as (
  delete from only tbl_5min where ts_start <= now()-interval '1 day' returning *
)
insert into tbl_30min
  (sid, hid, val_min, val_max, val_sum, val_count, ts_start, ts_end)
select sid, hid, min(val_min) as val_min, max(val_max) as val_max, sum(val_sum) as val_sum, sum(val_count) as val_count, min(ts_start) as ts_start, max(ts_end) as ts_end from
tmp1
group by sid, hid, substring(to_char(ts_start, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts_start, 'yyyymmddhh24mi'), 11, 2)::int / 30) * 30)::text, 2, '0');

小结

1、根据interval取时间分组,用整型除法+乘法。

例子:

5分钟:

substring(to_char(ts, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts, 'yyyymmddhh24mi'), 11, 2)::int / 5) * 5)::text, 2, '0');

30分钟:

substring(to_char(ts_start, 'yyyymmddhh24mi'), 1, 10) || lpad(((substring(to_char(ts_start, 'yyyymmddhh24mi'), 11, 2)::int / 30) * 30)::text, 2, '0')

2、生成均匀分布的时序数据,使用PG的interval和generate_series,可以将写入时间均匀分配到对应区间。

insert into tbl (sid, hid, val, ts) select random()*1000, random()*5, random()*100,   -- 1000个传感器,每个传感器5个指标。
  now()-interval '10 day' + (id * ((10*24*60*60/100000000.0)||' sec')::interval)   -- 倒推10天为起点 + (id * 每条记录的耗时)
from generate_series(1,100000000) t(id);

3、时序数据库一个重要的特性是时间流逝压缩,例如1天前压缩为5分钟一个点,7天前压缩为30分钟一个点。

PostgreSQL 压缩算法可定制。例如简单的平均值、最大值、最小值压缩,或者基于旋转门压缩算法的压缩。

本文介绍了一种简单压缩的场景,类似RRD数据库,按时间维度,压缩为 平均值、最大值、最小值、总和、记录数 等维度。

加上调度即可:

《PostgreSQL 定时任务方法2》

《PostgreSQL Oracle 兼容性之 - DBMS_JOBS - Daily Maintenance - Timing Tasks(pgagent)》

4、压缩后包含区间、最大值、最小值、平均值、点数等值,可以用于绘制图形。

5、结合PG的窗口函数,很容易绘制同比、环比的图形,SQL例句:

索引,加速

create index idx_tbl_2 on tbl using btree (sid, hid, ts);
create index idx_tbl_5min_2 on tbl_5min using btree (sid, hid, ts);
create index idx_tbl_30min_2 on tbl_30min using btree (sid, hid, ts);

复合类型,返回环比值

create type tp as (id int8, sid int, hid int, val float8, ts timestamp);

获取环比值函数,返回指定SID,HID在某个时间点附近的一条记录,含KNN算法

create or replace function get_val(v_sid int, v_hid int, v_ts timestamp) returns tp as $$
select t.tp from
(
select
(select (id, sid, hid, val, ts)::tp tp from only tbl where sid=1 and hid=1 and ts>= now() limit 1)
union all
select
(select (id, sid, hid, val, ts)::tp tp from only tbl where sid=1 and hid=1 and ts< now() limit 1)
) t
order by (t.tp).ts limit 1;
$$ language sql strict;

同比、周环比、月环比(这些值也可以自动生成,避免每次查询时计算):

select
sid,
hid,
val,
lag(val) over w1,                           -- 同比
get_val(sid, hid, ts-interval '1 week'),    -- 周环比
get_val(sid, hid, ts-interval '1 month')    -- 月环比
  from tbl         -- where ...  ,时间区间打点。
window w1 as (partition by sid, hid order by ts)
;

6、结合PG的线性回归,可以绘制预测指标。以下为详细介绍的例子:

《PostgreSQL 多元线性回归 - 2 股票预测》

《在PostgreSQL中用线性回归分析linear regression做预测 - 例子2, 预测未来数日某股收盘价》

《PostgreSQL 线性回归 - 股价预测 1》

《在PostgreSQL中用线性回归分析(linear regression) - 实现数据预测》

7、将压缩表继承到明细表,方便开发的使用,不需要再写UNION的SQL,直接查明细表,即可得到所有数据(包括压缩数据)。

相关案例

《超时流式处理 - 没有消息流入的数据异常监控》

《阿里云RDS PostgreSQL varbitx实践 - 流式标签 (阅后即焚流式批量计算) - 万亿级,任意标签圈人,毫秒响应》

《PostgreSQL 流式统计 - insert on conflict 实现 流式 UV(distinct), min, max, avg, sum, count ...》

《HTAP数据库 PostgreSQL 场景与性能测试之 32 - (OLTP) 高吞吐数据进出(堆存、行扫、无需索引) - 阅后即焚(JSON + 函数流式计算)》

《HTAP数据库 PostgreSQL 场景与性能测试之 31 - (OLTP) 高吞吐数据进出(堆存、行扫、无需索引) - 阅后即焚(读写大吞吐并测)》

《HTAP数据库 PostgreSQL 场景与性能测试之 27 - (OLTP) 物联网 - FEED日志, 流式处理 与 阅后即焚 (CTE)》

《基于PostgreSQL的流式PipelineDB, 1000万/s实时统计不是梦》

参考

1、https://en.wikipedia.org/wiki/RRDtool

2、https://oss.oetiker.ch/rrdtool/

RRD is round robin database.

RRDtool is the OpenSource industry standard, high performance data logging and graphing system for time series data.

RRDtool can be easily integrated in shell scripts, perl, python, ruby, lua or tcl applications.

3、https://www.postgresql.org/docs/10/static/sql-expressions.html#SYNTAX-WINDOW-FUNCTIONS

https://www.postgresql.org/docs/10/static/functions-window.html

时间: 2024-11-02 20:49:56

PostgreSQL 时序数据案例 - 时间流逝, 自动压缩, 同比\环比的相关文章

HTAP数据库 PostgreSQL 场景与性能测试之 24 - (OLTP) 物联网 - 时序数据并发写入(含时序索引BRIN)

标签 PostgreSQL , HTAP , OLTP , OLAP , 场景与性能测试 背景 PostgreSQL是一个历史悠久的数据库,历史可以追溯到1973年,最早由2014计算机图灵奖得主,关系数据库的鼻祖Michael_Stonebraker 操刀设计,PostgreSQL具备与Oracle类似的功能.性能.架构以及稳定性. PostgreSQL社区的贡献者众多,来自全球各个行业,历经数年,PostgreSQL 每年发布一个大版本,以持久的生命力和稳定性著称. 2017年10月,Pos

旋转门数据压缩算法在PostgreSQL中的实现 - 流式压缩在物联网、监控、传感器等场景的应用

背景 在物联网.监控.传感器.金融等应用领域,数据在时间维度上流式的产生,而且数据量非常庞大. 例如我们经常看到的性能监控视图,就是很多点在时间维度上描绘的曲线. 又比如金融行业的走势数据等等. 我们想象一下,如果每个传感器或指标每100毫秒产生1个点,一天就是864000个点. 而传感器或指标是非常多的,例如有100万个传感器或指标,一天的量就接近一亿的量. 假设我们要描绘一个时间段的图形,这么多的点,渲染估计都要很久. 那么有没有好的压缩算法,即能保证失真度,又能很好的对数据进行压缩呢? 旋

接下时序数据存储的挑战书,阿里HiTSDB诞生了

近日,2017中国数据库技术大会在京召开,来自阿里巴巴中间件团队高级技术专家钟宇(花名悠你)在数据存储和加速技术专场分享了题为<时间序列数据的存储挑战>的演讲,主要介绍了时序数据的由来,时序数据处理和存储的挑战,以及目前业界的通用做法.在案例展示部分,他结合阿里内部业务场景和时序数据的特点,讲述阿里时序数据处理和存储所面临的问题以及解决问题的过程,以及不断应对挑战慢慢形成HiTSDB的过程. 演讲全文: 钟宇:大家好,我叫钟宇,花名悠你(Uni),来自阿里巴巴中间件(Aliware)团队.首先

漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

 "蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点."蚂蚁金服副总裁.首席科学家漆远博士,在有中国" AI 春节"之称的新智元2017开源·生态AI技术峰会上表示. 大约一个月前,在北大"人工智能前沿"系列课程的讲堂上,作为特邀演讲人的漆远已经将 AI 技术和普惠金融的概念结合到了一起.在新智元 AI 技术峰会上,漆远再次强调:"蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工

时序数据合并场景加速分析和实现 - 复合索引,窗口分组查询加速,变态递归加速

时序数据合并场景加速分析和实现 - 复合索引,窗口分组查询加速,变态递归加速 作者 digoal 日期 2016-11-28 标签 PostgreSQL , 数据合并 , 时序数据 , 复合索引 , 窗口查询 背景 在很多场景中,都会有数据合并的需求. 例如记录了表的变更明细(insert,update,delete),需要合并明细,从明细中快速取到每个PK的最新值. 又比如有很多传感器,不断的在上报数据,要快速的取出每个传感器的最新状态. 对于这种需求,可以使用窗口查询,但是如何加速,如何快速

送200分 C# 怎样实现电脑一开机就自动截屏 并以二进制形式自动压缩存放数据库

问题描述 送200分C#怎样实现电脑一开机就自动截屏并以二进制形式自动压缩存放数据库 解决方案 解决方案二:在正常的操作系统上肯定不能实现,C#依赖于.net平台依赖于操作系统.电脑一开机的时候你的程序根本没办法跑起来.或许可以从虚拟机方向想想办法.解决方案三:是说的进桌面以后?那办法很多啊.自动运行或搞成Windows服务.解决方案四:你多写了个0吧.呵呵解决方案五:我特别提醒你一句,如果你用bitmap来纯的话,你的数据不用一个钟就能达40G!!!!如果你自己写自创的数据格式,那又是一个大工

保存Word 2007文档时自动压缩图片尺寸

尽管用户可以在Word2007文档中压缩所有图片或选中图片的尺寸,以减小Word文件的大小,但每次都 执行压缩操作未免太繁琐.用户可以设置图片压缩选项,实现在保存Word文档时自动压缩图片尺寸的目的 ,操作步骤如下所述: 第1步,打开Word2007文档窗口,选中任意图片.在打开的"图片工具"功能区的"格式"选项卡中, 单击"调整"分组中的"压缩图片"按钮,如图2009022603所述. 图2009022603 单击"

Visual C# 2005中为数据表建立自动编号字段

在实际操作中,流水号的需求是非常大的.比方说,我们经常希望订单号码或是订单上各个产品的顺序编号自动依次递增而不需要人工输入,当您遇到此类需求时,千万不要一时冲动而想以程序代码来解决,因为只要使用自动编号字段,万事大吉! ADO.NET并没有额外提供所谓的自动编号数据类型.欲使一个字段成为自动编号字段,您必须进行下列设置: ◆首先,字段的数据类型必须是Int16.Int32或Int64.如果字段的数据类型不是这三者,则会将DataType属性强制设置为Int32. ◆欲使一个字段成为自动编号字段,

让PPT文档保存时自动压缩图片

尤其是在PPT演示文稿中,大家都喜欢追求图文并茂而当文档中有大量图片时.文档的个头就小不了此时.该如何有效控制文档的大小呢,以下就是让文档自动"减肥"的两个方法保存时自动压编图片为7自动减小包含有图片文档的大小,Powerpoint提供了在保存时自动执行图片压缩的功能.使用方法如下 步骤1:打开需要自动压缩图片的PPT演示文搞. 步骤2:在图片工具的格式选项卡.单击调整组中的压缩图片,然后单击选项按钮 步骤3:选中.保存时自动执行基本压缩复选框,单击确定按钮.(教程 ) 之后.对于上述