Replica small data to PostgreSQL from Oracle's Big table

有时候会遇到从Oracle同步数据到PostgreSQL数据库的需求, 当Oracle那边的表是大表的时候, 

即使同步到PostgreSQL的数据量很小也可能很慢.

原因可能是

1. Oracle那边的执行计划可能不优. 比如走全表扫描了. 或者走的索引不对. 

2. 条件没有正确的转换给Oracle, 那就惨了, 数据全部取过来然后在PostgreSQL中过滤.

例如我们需要同步的是前一天的数据, 实际上走分区的全表扫描可能比走索引快. 但是又不好写HINT.

那么怎么来解决这种问题呢? 来看个例子 : 

例如我们要从Oracle的tbl表同步前一天的数据, 这个表做了按月分区.  一个月大概5000W记录. 10GB左右.

我们要同步的数据条件是cond1 = '1' and cond2 in( '10','15'). 这个取出来每天只有几百条记录. 

同步的SQL应该是

select a, b, c, createtime from tbl where createtime>=sysdate-1 and createtime<sysdate and cond1 = '1' and cond2 in( '10','15').

这个SQL可以走时间索引也可以走cond1和cond2的联合索引. 或者走分区扫描.

几种执行计划的时间相差比较大. 

走联合索引的效率可能是最高的, 不过这个索引不存在, 在ORACLE中也不存在PostgreSQL中这样的partial索引, 而且建立索引之后会带来写入的延迟. 最终决定不建立.

为了避免第二种情况的发生, 让PG读ORACLE的视图, 而不是直接读表.

通过限定视图中的数据量来限定PG的最大可能获取量.

oracle : 

digoal user :

create view v_tbl as select a,b,c,createtime from tbl where cond1 = '1' and cond2 in( '10','15') and createtime >= sysdate-7;

这里限定我们要限定的条件, 并且加了一个时间的限定.

然后再到PostgreSQL中创建基于这个视图的外部表.

注 : 如果你的oracle_fdw支持where语句下发的话, 可以不用这么麻烦.

postgresql9.1 : 

superuser :

cretae role digoal nosuperuser encrypted password 'DIGOAL';
create server digoal foreign data wrapper oracle_fdw options (dbserver '//192.168.xxx.xxx:1521/digoal');
create user mapping for digoal server digoal options (user 'digoal',password 'digoal_oracle');

create FOREIGN table digoal.ora_tbl (a varchar(9),b varchar(420),c varchar(45),createtime timestamp(0) without time zone) server digoal options (table 'v_tbl',schema 'digoal',plan_costs 'true');

grant select on digoal.ora_tbl to digoal;

digoal user : 

create table tbl (a varchar(9),b varchar(420),c varchar(45),createtime timestamp(0) without time zone);
create table sync_record(modifytime timestamp(0) without time zone);

sync_record 用于记录最后一次同步时间, 防止重复同步.

下面是同步调用的函数 :

create or replace function sync_tbl() returns text as $$
declare
v_modifytime timestamp(0) without time zone;
v_now timestamp(0) without time zone;
begin
v_now = now();
-- lock表防止同时调用这个同步过程. 导致重复同步
lock table sync_record in exclusive mode;
perform 1 from sync_record limit 1;
if not found then
insert into sync_record(modifytime) values(v_now-interval '1 day');
end if;
select modifytime into v_modifytime from sync_record limit 1;
if v_modifytime < current_date then
insert into tbl(a,b,c,createtime) select a,b,c,createtime from ora_tbl where createtime >=date(v_modifytime) and createtime < date(v_now);
update sync_record set modifytime=v_now;
end if;
return 'ok';
exception
when others then
return 'error';
end;
$$ language plpgsql;
digoal=> select * from sync_tbl();
 sync_tbl_app_charge
---------------------
 ok
(1 row)
时间: 2024-09-30 07:31:38

Replica small data to PostgreSQL from Oracle's Big table的相关文章

a foolish sync method about sync data from PostgreSQL to Oracle

使用以下脚步从PostgreSQL同步到Oracle的数据不一致.  原因分析在后面 #!/bin/bash . /home/enterprisedb/.bash_profile EMAIL="noc@xxx.com dba@xxx.com" # check running mark test -f /home/enterprisedb/script/run/tbl_charge_xxxx.run if [ $? -eq 0 ]; then SYNC_TIME_CHECK="

用Shell写的一段PostgreSQL到Oracle的数据传输脚本

只为实现功能,不求效率和可管理性等等. 代码如下:包含有注释和讲解 #!/bin/bash . /home/testuser/.bash_profile # 定义异常通知邮件组 TO_MAIL=" " # 判断是否已经在运行 test -f /home/testuser/script/run/target_table.run # 退出代码和超时通知代码 if [ $? -eq 0 ]; then SYNC_TIME_CHECK="'`ls -1 -l –time-style=

《卸甲笔记》-PostgreSQL和Oracle的数据类型的对比系列一:字符类型

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先遇到的,并且也是最重要的,就是数据类型之间的转换.下面根据自己的理解和测试,写了一些数据类型之间的差异以及迁移时的注意事项的文章,不足之处,尚请多多指教. 字符类型 大家知道,Oracle有四种字符类型,分别是char,varchar2,nchar,nvarcha

《卸甲笔记》-PostgreSQL和Oracle的数据类型的对比系列五:其它类型

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先遇到的,并且也是最重要的,就是数据类型之间的转换.下面根据自己的理解和测试,写了一些数据类型之间的差异以及迁移时的注意事项的文章,不足之处,尚请多多指教. 其它类型 Oracle的内建数据类型中,还有一些其它的类型.不能够归类到字符.数字.时间和大数据类型等.比如

《卸甲笔记》-PostgreSQL和Oracle的数据类型的对比系列四:大数据类型

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先遇到的,并且也是最重要的,就是数据类型之间的转换.下面根据自己的理解和测试,写了一些数据类型之间的差异以及迁移时的注意事项的文章,不足之处,尚请多多指教. 大数据类型 Oracle的大数据类型主要包括三类.分别是存储在数据库内部的类型,包括BLOB, CLOB,

《卸甲笔记》-PostgreSQL和Oracle的数据类型的对比系列二:数字类型

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先遇到的,并且也是最重要的,就是数据类型之间的转换.下面根据自己的理解和测试,写了一些数据类型之间的差异以及迁移时的注意事项的文章,不足之处,尚请多多指教. 数字类型 Oracle内建的数字类型有四种,分别是number,float,binary_float,bin

《卸甲笔记》-PostgreSQL和Oracle的数据类型的对比系列三:时间类型

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先遇到的,并且也是最重要的,就是数据类型之间的转换.下面根据自己的理解和测试,写了一些数据类型之间的差异以及迁移时的注意事项的文章,不足之处,尚请多多指教. 日期时间类型 Oracle日期时间类型有两类,一类是日期时间类型,包括Date, Timestamp wit

Blockdump - 8.x Data Segment Header in Oracle

oracle Subject: QREF: Blockdump - 8.x Data Segment Header in Oracle Creation Date: 25-APR-2000 CACHE BLOCK:See Note: 47132.1 type: 0x10=DATA SEGMENT HEADER - UNLIMITEDEXTENT CONTROL: Extent Header:: spare1: 0 space2: 0 #extents: 13 #blocks: 1429 last

《卸甲笔记》-PostgreSQL和Oracle的SQL差异分析之四:特殊字符和符号

PostgreSQL是世界上功能最强大的开源数据库,在国内得到了越来越多机构和开发者的青睐和应用.随着PostgreSQL的应用越来越广泛,Oracle向PostgreSQL数据库的数据迁移需求也越来越多.数据库之间数据迁移的时候,首先是迁移数据,然后就是SQL.存储过程.序列等程序中不同的数据库中数据的使用方式的转换.下面根据自己的理解和测试,写了一些SQL以及数据库对象转换方面的文章,不足之处,尚请多多指教. 空字符串( '' ) Oracle中,空字符串( '' )很多时候是和null同样