PgSQL · 应用案例 · "写入、共享、存储、计算" 最佳实践

背景

数据是为业务服务的，业务方为了更加透彻的掌握业务本身或者使用该业务的群体，往往会收集，或者让应用埋点，收集更多的日志。

随着用户量、用户活跃度的增长，时间的积累等，数据产生的速度越来越快，数据堆积的量越来越大，数据的维度越来越多，数据类型越来越多，数据孤岛也越来越多。

日积月累，给企业IT带来诸多负担，IT成本不断增加，收益确不见得有多高。

上图描绘了企业中可能存在的问题：

1. 数据孤岛问题严重（如果没有大数据平台时）。

2. 对成本预估不足，计算能力扩容麻烦，又或者铺张浪费严重。

3. 数据冗余问题突出。

4. 存储成本昂贵。

5. 业务萎缩后硬件成为固定资产，IT负担严重，几乎没有硬件伸缩能力。

6. 数据量太大，几乎无法备份。

7. 业务需求多，数据种类多，分析成本、开发成本高昂。

本文将针对这个场景，给出一个比较合理的方案，灵活使用，可以减轻企业IT成本，陪伴企业高速成长。

行业场景

### 1. 物流

一个包裹，从揽件、发货、运输、中转、配送到签收整个流程中会产生非常多的跟踪数据，每到一个节点，都会扫描一次记录包裹的状态信息。

运输过程中，车辆与包裹关联，车辆本身采集的轨迹、油耗、车辆状态、司机状态等信息。

配送过程，快递员的位置信息、包裹的配送信息都会被跟踪，也会产生大量的记录。

一个包裹在后台可能会产生上百条跟踪记录。

运输的车辆，一天可能产生上万的轨迹记录。

配送小哥，一天也可能产生上万条轨迹记录。

我曾经分享过一个物流配送动态规划的话题。有兴趣的童鞋也可以参考

《聊一聊双十一背后的技术 - 物流、动态路径规划》

物流行业产生的行为数据量已经达到了海量级别。

怎样才能有效的对这些数据进行处理呢？

比如：

实时按位置获取附近的快递员。

实时统计包裹的流量，快递员的调度，车辆的调度，仓库的选址等等一系列的需求。

2. 金融

金融行业也是数据的生产大户，用户的交易，企业的交易，证券数据等等。

数据量大，要求实时计算，要求有比较丰富的统计学分析函数等。

我曾经分享过一个关于模拟证券交易的系统需求分析。有兴趣的童鞋也可以参考

《PostgreSQL 证券行业数据库需求分析与应用》

3. 物联网

物联网产生的数据有时序属性，有流计算需求（例如到达阈值触发），有事后分析需求。

数据量庞大，有数据压缩需求。

我刚好也写过一些物联网应用的数据库特性分析，这些特性可以帮助物联网实现数据的压缩、流计算等需求。

《流计算风云再起 - PostgreSQL携PipelineDB力挺IoT》

《旋转门数据压缩算法在PostgreSQL中的实现 - 流式压缩在物联网、监控、传感器等场景的应用》

《PostgreSQL 物联网黑科技 - 瘦身几百倍的索引(BRIN index)》

《一个简单算法可以帮助物联网,金融用户节约98%的数据存储成本》

《”物联网”流式处理应用 - 用PostgreSQL实时处理(万亿每天)》

《PostgreSQL 黑科技 range 类型及 gist index 助力物联网(IoT)》

物联网还有一个特性，传感器上报的数据往往包括数字范围（例如温度范围）、地理位置、图片等信息，如何高效的存储，查询这些类型的数据呢？

4. 监控

监控行业，例如对业务状态的监控，对服务器状态的监控，对网络、存储等硬件状态的监控等。

监控行业具有比较强的业务背景，不同的垂直行业，对监控的需求也不一样，处理的数据类型也不一样。

例如某些行业可能需要对位置进行监控，如公车的轨迹，出了位置电子围栏，发出告警。换了司机驾驶，发出警告。等等。

5. 公安

公安的数据来自多个领域，例如通讯记录、出行记录、消费记录、摄像头拍摄、社交、购物记录等等。

公安的数据量更加庞大，一个比较典型的场景是风险控制、抓捕嫌犯。涉及基于地理位置、时间维度的人物关系分析（图式搜索）。

如何才能满足这样的需求呢？

6. 其他行业

其他不再列举。

行业痛点

如何解决数据孤岛，打通数据共享渠道？

如何高效率的写入日志、行为轨迹、金融数据、轨迹数据等？

如何高效的实时处理数据，根据阈值告警通知，实时分析等？

如何解决大数据的容灾、备份问题？

如何解决大数据的压缩和效率问题？

如何解决数据多维度、类型多，计算复杂的问题？

如何解决企业IT架构弹性伸缩的问题？

总结起来几个关键字：

写入、共享、存储、计算。

方案

用到三个组件：

1. RDS PostgreSQL

支持时序数据、块级索引、倒排索引、多核并行、JSON、数组存储、OSS_FDW外部读写等特性。

解决OLTP，GIS应用、复杂查询、时空数据处理、多维分析、冷热数据分离的问题。

2. HybridDB PostgreSQL

支持列存储、水平扩展、块级压缩、丰富的数据类型、机器学习库、PLPYTHON、PLJAVA、PLR编程、OSS_FDW外部读写等特性。

解决海量数据的计算问题。

3. OSS 对象存储

多个RDS实例之间，可以通过OSS_FDW共享数据。

OSS多副本、跨域复制。

解决数据孤岛、海量数据存储、跨机房容灾、海量数据备份等问题。

1 写入

数据写入分为3条路径：

1. 在线实时写入，可以走RDS SQL接口，单个实例能达到百万行/s 以上的写入速度。

2. 批量准实时写入，可以走HybridDB SQL接口，单个实例能达到百万行/s 以上的写入速度。

3. 批量准实时写入，比如写文件，可以走OSS写入接口，带宽弹性伸缩。

2 共享

多个RDS实例之间，可以通过OSS_FDW共享数据。

例如A业务和B业务，使用了两个RDS数据库实例，但是它们有部分需求需要共享数据，传统的方法需要用到ETL，而现在，使用OSS_FDW就可以实现多实例的数据共享，而且效率非常高。

通过RDS PostgreSQL OSS_FDW的并行读写功能（同一张表的文件，可以开多个worker process进程并行读写），共享数据的读写效率非常高。

并行体现三个方面：OSS读写并行、RDS PostgreSQL多核计算并行、RDS PG或HybridDB的多机并行。

3 存储

对于实时数据，使用RDS PostgreSQL, HybridDB的本地数据存储。对于需要分析、需要共享的数据，使用OSS进行存储。

OSS相比计算资源的存储更加的廉价，在确保灵活性的同时，降低了企业的IT成本。

通过OSS对象存储，解决了企业的数据冗余、成本高等问题，满足了数据的备份、容灾等需求。

4 计算

通过RDS PostgreSQL, HybridDB, OSS的三个基本组件，实现了计算资源、存储资源的分离。

因为计算节点的数据量少了（大部分数据都存在OSS了），计算节点的扩容、缩容、容灾、备份都更加方便。

计算本身分为以下几种

1. 流式计算

流式计算分为两种，一种是实时统计，另一种是设置阈值进行实时的告警。

通过pipelinedb(base on postgresql)可以实现这两类流计算。

好处：

SQL标准接口，丰富的内置函数支持复杂的流计算需求，丰富的数据类型（包括GIS,JSON等）支持更多的流计算业务场景，异步消息通知机制支持第二类流计算需求。

pipelinedb正在进行插件化改造，以后可以作为PostgreSQL的插件使用。

https://github.com/pipelinedb/pipelinedb/issues?q=is%3Aissue+is%3Aopen+label%3A%22extension+refactor%22

例如在监控领域，使用流计算的异步消息机制，可以避免传统主动问询监控的无用功问题。

2. 实时交互业务

传统的OLTP需求，使用RDS PostgreSQL可以满足。

PostgreSQL的特性包括：GIS、JSON、数组、冷热分离、水平分库、K-V类型、多核并行、块级索引、倒排索引等。

PostgreSQL支持的场景包括：流计算、图式搜索、时序数据、路径规划、模糊查询、全文检索、相似查询、秒杀、基因、金融、化学、GIS应用、复杂查询、BI、多维分析、时空数据搜索等。

覆盖银行、保险、证券、物联网、互联网、游戏、天文、出行、电商、传统企业等行业。

3. 准实时分析

结合OSS对象存储，RDS PostgreSQL和HybridDB都可以实现准实时的分析。

同一份OSS的数据，也可以在多个实例之间进行共享，同时访问。

4. 离线分析、挖掘

结合OSS对象存储，RDS PostgreSQL和HybridDB都可以实现对离线数据的分析和挖掘。

RDS PostgreSQL 支持单机多核并行，HybridDB for PostgreSQL支持多机并行。用户可以根据计算量进行选择。

计算需要具备的能力

计算的灵魂是类型的支持、以及类型的处理。

1. PostgreSQL内置了丰富的类型支持，包括（数字、字符串、时间、布尔、枚举、数组、范围、GIS、全文检索、bytea、大对象、几何、比特、XML、UUID、JSON、复合类型等），同时支持用户自定义的类型。可以支持几乎所有的业务场景

2. 操作符，为了满足对数据的处理需求，PG对每一种支持的类型，都支持非常丰富的操作，

3. 内置函数，PG内置了丰富的统计学函数、三角函数、GIS处理函数，MADlib机器学习函数等。

4. 自定义计算逻辑，用户可以通过C, python, java, R等语言，定义数据的处理函数。扩展PostgreSQL, HybridDB for PostgreSQL的数据处理能力。

5. 聚合函数，内置了丰富的聚合函数，支持数据的统计。

6. 窗口查询功能的支持。

7. 递归查询的支持。

8. 多维分析语法的支持。

方案小结

1 RDS PostgreSQL 优势

主要体现在这几个方面

1. 性能

RDS PostgreSQL主要处理在线事务以及少量的准实时分析。

PG OLTP的性能可以参考这篇文档，性能区间属于商业数据库水准。

《数据库界的华山论剑 tpc.org》

PG 的OLAP分析能力，可以参考这篇文档，其多核并行，JIT，算子复用等特性，使得PG的OLAP能力相比其他RDBMS数据库有质的提升。

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用大联姻 - 一起来开启PostgreSQL的百宝箱》

PostgreSQL 10 在HTAP（OLTP与OLAP混合应用场景）方面还有更多的增强，预计社区5月份会发布BETA版本。

2. 功能

功能也是PostgreSQL的强项，在上一章《计算需要具备的能力》有详细介绍。

3. 扩展能力

计算能力扩展，RDS PostgreSQL的主要场景是OLTP在线事务，通过增加CPU，可以同时扩展OLTP的能力，以及扩展复杂计算的性能。

存储能力扩展，通过OSS存储以及oss_fdw插件，可以扩展RDS PG的存储能力，打破存储极限。

4. 成本

存储成本：由于大部分需要分离的数据都存储到OSS了，用户不再需要考虑这部分的容灾、备份问题。相比存储在数据库中，存储成本大幅降低。

开发成本：RDS PG, HybridDB PG都支持丰富的SQL标准接口，访问OSS中的数据（通过TABLE接口），使用的也是SQL标准接口。节省了大量的开发成本，

维护成本：使用云服务，运维成本几乎为0。

5. 覆盖行业

覆盖了银行、保险、证券、物联网、互联网、游戏、天文、出行、电商、传统企业等行业。

2 HybridDB PostgreSQL 优势

1. 性能

HybridDB PostgreSQL为MPP架构，计算能力出众。

2. 功能

在上一章《计算需要具备的能力》有详细介绍。

3. 扩展能力

计算能力扩展，通过增加计算节点数，可以扩展复杂计算的性能。

存储能力扩展，通过OSS存储以及oss_fdw插件，可以扩展RDS PG的存储能力，打破存储极限。

4. 成本

存储成本：由于大部分需要分离的数据都存储到OSS了，用户不再需要考虑这部分的容灾、备份问题。相比存储在数据库中，存储成本大幅降低。

开发成本：RDS PG, HybridDB PG都支持丰富的SQL标准接口，访问OSS中的数据（通过TABLE接口），使用的也是SQL标准接口。节省了大量的开发成本，

维护成本：使用云服务，运维成本几乎为0。

5. 覆盖行业

覆盖了银行、保险、证券、物联网、互联网、游戏、天文、出行、电商、传统企业等行业。

典型用法

云端数据库如何与海量存储结合？

《RDS PostgreSQL : 使用 oss_fdw 读写OSS对象存储》

《HybridDB PostgreSQL : 使用 oss_fdw 读写OSS对象存储》

时间： 2024-08-04 14:39:33

PgSQL · 应用案例 · "写入、共享、存储、计算" 最佳实践的相关文章

海量数据 "写入、共享、存储、计算" 最佳实践

标签 PostgreSQL , 冷热分离 , 数据共享 , 打破孤岛 , 无盘工作 , 存储计算分离 , 行为数据 , 轨迹数据 , 金融数据 , 监控数据 , 物联网 , GIS , 范围 , 数组 , 图片背景数据是为业务服务的,业务方为了更加透彻的掌握业务本身或者使用该业务的群体,往往会收集,或者让应用埋点,收集更多的日志. 随着用户量.用户活跃度的增长,时间的积累等,数据产生的速度越来越快,数据堆积的量越来越大,数据的维度越来越多,数据类型越来越多,数据孤岛也越来越多. 日积月累,给

企业开始使用软件定义的存储的最佳实践方案

对于今天许多的IT专家来说,"大数据"早已不仅仅只是另一个毫无实际意义的因概念炒作而兴起的时髦术语了.这是一个更接近转折点的东西,而不能被简单抹去.原因非常简单:大数据的规模正在不断越来越大.对于大量的企业组织而言,特别是那些数据密集型的行业,如零售业--他们发现,能够以具有成本效益的方式从过剩的海量数据信息中获得真正的价值,将成为决定企业组织能否在未来获得市场成功的关键因素. 庆幸的是,当前的确是有一些实用的解决方案的.一些龙头企业领军正在转向开源的.软件定义的存储作为部署网络规模的

表格存储最佳实践：一种用于存储时间序列数据的表结构设计

在表格存储的数据模型这篇文章中提到: 在表格存储内部,一个表在创建的时候需要定义主键,主键会由多列组成,我们会选择主键的第一列作为分片键.当表的大小逐渐增大后,表会分裂,由原来的一个分区自动分裂成多个分区.触发分裂的因素会有很多,其中一个很关键的因素就是数据量.分裂后,每个分区会负责某个独立的分片键范围,每个分区管理的分片键范围都是无重合的,且范围是连续的.在后端会根据写入数据行的分片键的范围,来定位到是哪个分片. 表会以分区为单位,被均匀的分配到各个后端服务器上,提供分布式的服务.

(流式、lambda、触发器)实时处理大比拼 - 物联网(IoT)\金融,时序处理最佳实践

标签 PostgreSQL , 物联网 , 传感器 , lambda , 调度 , 实时 , 流式更新 , UPSERT , insert on conflict do update 背景越来越多的数据要求实时的分析.聚合.展示最新值.展示异常值.实时的搜索. 例如金融数据.物联网传感器的数据.网络游戏的在线数据等等. 关于实时搜索,可以参考这篇最佳实践: <行为.审计日志实时索引/实时搜索 - 最佳实践> 关于海量数据的"写入.共享.存储.计算",以及离线分析,则可

贷款、天使投资(风控助手)业务数据库设计 - 阿里云RDS PostgreSQL, HybridDB for PostgreSQL最佳实践

标签 PostgreSQL , HybridDB for PostgreSQL , 小微贷款 , 金融风控 , 企业图谱 , 图式搜索 , 舆情分析 , 自动贷款 , 贷款审查 , 审查神器背景贷款是银行的主营业务之一,但是并不是只有银行能提供贷款,实际上资金雄厚的公司都有能力提供贷款(比如保险行业.资源垄断型企业等). 除了放贷,我们常说的天使投资.A轮B轮啥的,也是类似的场景,凭什么投你,背后如何决策也需要决策系统的支撑. 与贷款相反的是吸金类业务,比如我们现在发现越来越多的理财产品.股

PgSQL · 应用案例 · 经营、销售分析系统DB设计之共享充电宝

背景共享充电宝.共享单车.共享雨伞,共享女朋友^|^,共享汽车,... 共享经济最近几年发展确实非常迅猛. 共享必定涉及被共享对象的管理.会员的管理等,实际上也属于一种物联网系统. 本文以共享充电宝的场景为例,分享一下共享充电宝的经营分析.销售管理系统的后台数据库的设计.(老板关心的是整体销售的业绩,以及各个渠道的透视等.销售经理关心的是他管辖片区的销售业绩,运维人员关心的是设备的状态.) 一.数据结构和数据量业务模式是什么样的? 在饭店.商场.火车站.足浴店等各种场所,都能看到充电宝的身影

PgSQL · 应用案例 · 流式计算与异步消息在阿里实时订单监测中的应用

背景在很多业务系统中,为了定位问题.运营需要.分析需要或者其他需求,会在业务中设置埋点,记录用户的行为在业务系统中产生的日志,也叫FEED日志. 比如订单系统.在业务系统中环环相扣,从购物车.下单.付款.发货,收货(还有纠纷.退款等等),一笔订单通常会产生若干相关联的记录. 每个环节产生的属性可能是不一样的,有可能有新的属性产生,也有可能变更已有的属性值. 为了便于分析,通常有必要将订单在整个过程中产生的若干记录(若干属性),合并成一条记录(订单大宽表). 通常业务系统会将实时产生的订单FEE

PgSQL · 应用案例 · HTAP视角,数据与计算的生态融合

背景随着技术的普及,越来越多以前需要很高的成本才能获取的数据,现在触手可及. 1. 点云(点的位置坐标+RGB+其他属性),以前只有军用领域在使用,比如<普罗米修斯>这部电影,通过一些小的飞行器(点云传感器设备)飞入未知的通道后,传回获取的点云数据,从而构建通道的全系影像. 现在民用领域,也有很多点云的类似应用.例如:扫地机器人,无人车,消防(探测房屋结构),VR(通过点云数据构建全息影像)等等. 2. 气象数据 (位置.日照.温度.雨量.风量等),气象数据往往是栅格类型的数据,一个栅格包含

PgSQL · 最佳实践 · 双十一数据运营平台订单Feed数据洪流实时分析方案

摘要 2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒.支付峰值25.6万笔/秒.而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去. 数据运营平台的主动服务,根据这些合并后的数据,实时的进行分析,进行实时的舆情展示,实时的找出需要主动服务的对象等,实现一个智能化的服务运营平台. 通过阿里云RDS PostgreSQL和HybridDB for PGSQL实时分析方案: - 承受住了几十万笔/s的写入吞吐并做数据清洗,是交易的数倍 - 实