巧用外部表备份历史数据

在很多的系统中,随着时间的推移,都会沉淀大量的历史数据。一般数据量达到一定程度都会考虑使用分区表来处理。根据业务规则,可能有些历史数据隔一段时间就需要做清理了,这个时候历史数据就需要在分区级进行清理。在不同的系统,不同厂商都有不同的实现方案。但是从数据安全角度来说,都需要做备份工作,也是预防万一。
比如说我们存在一个表charge,就可能会有下面的几种分区规则,
一种是按照日期来分区,这样就能够很清楚的定位到哪些天的数据可以清理。
比如 6月9日的充值记录,分区表就为P_20150609,相关的一些分区如下:
P_20150609
P_20150610
P_20150611
如果需要做清理就需要使用exp或者expdp来根据分区导出,这就完成了备份工作。
然后在分区层面使用truncate partition P_20150609或者drop partition P_20150609 来完成清理工作
还有一种方案是对于每个分区绑定一个对应的表空间,分区和表空间的情况如下。
P_20150609   TS_20150609
P_20150610   TS_20150610
P_20150611   TS_20150611
这样的情况下,就需要维护对应的表空间,如果数据量较大,就需要添加多个数据文件。
如果需要备份,还是采用exp或者expdp
对于清理工作,则可以直接删除数据文件或者使用truncate partition的形式。
可能分区规则不同,实现方式上都会有一些差别,但是总体来说,备份工作都是相对轻松的。清理工作的目标也很明确,要么清空分区,要么清理数据。
其实在这个时候,如果发生一些突发情况的时候,需要做数据恢复,就很郁闷了。
对于第一种方案来说,分区已经被清理之后,如果在特定的情况下需要恢复,就显得很困难。不行你可以试试,如果某些靠前的分区被删除之后,再想添加就不是那么容易的事情了。
而且就算行得通,imp,impdp的过程也会产生大量的归档文件,比如说数据量在100G,结果费了一番功夫恢复之后,可能对于开发来说,只是做一些数据确认而已。确认之后还是需要做分区的清理。

对于第二种方案,可能维护起来的范围较大,如果这种历史表很多的时候,维护大量的表空间就有些应接不暇了。但是也勉强能够接受。如果还是需要做数据恢复,可能开发也是做一些简单的数据校验和检查。
这个时候我们还是需要创建一些相关的数据文件,然后进行数据导入imp或者Impdp来完成。这个难度和第一种方案是一致的,归档的消耗,二次清理还有无形之中的性能影响。

所以对于历史表的这种处理,其实难度不在于备份和清理,难就难在一些恢复场景,比如备份了1T的表数据,在一些场景中需要做恢复,持续的时间,归档和性能,这种情况就会让人很抓狂了。
其实方法方式有很多,使用外部表就是一种思路。在这种情况下,外部表看起来就全是优点,exp/expdp做不到的它都能做到。
首先空间占用情况,在数据恢复的场景中,外部表不会占用额外的数据空间,创建一个外部表就如同创建一个同义词一样,没有额外的空间消耗。
其次来说说归档,外部表除了会生成极少量的日志文件(部分日志文件功能都可以禁用),对于归档几乎就是零贡献。
再次来说性能,这个部分就显得有些微妙,可能仁者见仁,智者见智了。比如在一些场景中需要做数据恢复,可能涉及的数据极少,这个时候就可以轻松使用一些过滤条件来完成一些复杂的数据过滤工作。
比如说表charge存在一个分区P_20150609 里面存放着100万条记录。
可能在数据恢复的时候需要检查在晚上8点到9点的数据,假设有10万条。这个时候假设我们基于分区P_20150609创建了外部表 charge_ext_20150609,则我们可以添加一些额外的过滤条件,创建出一个临时表什么的,
create table xxxx nologging as select *from charge_ext_20150609 where charge_date between xxx_8pm to xxx_9pm;
这个时候这种热部署的优势就显现出来了,有了这些过滤后的数据,我们可以随时卸载外部表。本身来说对于系统的影响应该说降到了最低。
如果真要做全表数据恢复,外部表也不逊色,我们可以使用insert /*+append*/的方式做数据插入,速度也还是不错的。

我们来简单演示一个案例。
备份,我们可以使用oracle_datapump来生成对应的外部表文件

create table test.charge_ext_20150609
    ORGANIZATION EXTERNAL
    (TYPE ORACLE_DATAPUMP
     DEFAULT DIRECTORY
xxxxx 
     LOCATION (
   
 ‘charge_201506609.dmp’……….
    )
    )
    parallel 4    as
    select /*+ parallel(t 4) */ * from charge partition(P_20150609) t;

drop test.mo1_memo_ext; --生成dump文件之后,删除外部表。

 

数据恢复
先加载外部表,这个过程就跟创建一个同义词一样快。

Create table charge_ext_20150609

   (    id
number,object_id number,object_name varchar2(30),object_type varchar2(30),clob_test
clob xxxx,charge_date date
   ) 
   ORGANIZATION EXTERNAL 
    ( TYPE ORACLE_DATAPUMP
      DEFAULT DIRECTORY
"EXPDP_LOCATION"
      LOCATION(
‘charge_20150609.dmp’
       )
    )
   PARALLEL 2;

小量数据检查
create table charge_tmp_20150609 as select *from charge_ext_20150609 where  charge_date between xxx_8pm to xxx_9pm;

全量恢复,对于数据全量恢复可以使用insert append的方式
Insert /*+append */ into xxx.charge select *from
charge_ext_20150609;

Commit;

时间: 2024-07-30 10:57:00

巧用外部表备份历史数据的相关文章

巧用外部表避免大量的insert

昨天开发咨询我一个问题,希望我对下面的语句进行调优. 语句类似下面的形式 SELECT  subscriber_no  FROM SUBSCRIBER S WHERE SUBSCRIBER_TYPE = 'RM'              and CONV_RUN_NO in (20, 21, 22, 23)              and not EXISTS (SELECT s.AGREEMENT_NO                        FROM SERVICE_AGREEME

PostgreSQL 10 + PostGIS + Sharding(pg_pathman) + MySQL(fdw外部表) on ECS 部署指南(适合新用户)

标签 PostgreSQL , Linux , CentOS 背景 新用户部署PostgreSQL以及空间数据库插件PostGIS的指南. 内网环境RPM打包(可选项) 如果是内网环境,可以将包全部下载到本地再用rpm安装. 安装epel和postgresql yum rpm两个包后再执行: 1.使用yum-utils的yumdownloader下载需要的安装包,包括依赖包. yum install -y yum-utils yumdownloader --resolve --destdir=/

使用外部表管理Oracle 告警日志(ALAERT_$SID.LOG)

--================================================ -- 使用外部表管理Oracle 告警日志(ALAERT_$SID.LOG) --================================================       Oracle 告警日志时DBA维护数据库经常需要关注的一部分内容.然而告警日志以文本文件,按时间的先后顺序不断累积的形式来存储,久而 久之,势必造成告警日志的过大,难于维护和查找相关的信息.使用外表表方式来

通过外部表改进一个繁琐的大查询

今天处理了一个比较有意思的案例,说是有意思,因为涉及多个部门,但是哪个部门似乎都不愿意接.最后还是用了一些巧力,化干戈为玉帛. 问题的背景是这样的,业务部门需要做一个大查询,他们目前只拿到了部分账号的一个id字段的值,需要匹配得到一个类似手机号的字段值,开发部门提供了对应的sql语句,会关联两张表来匹配得到对的数据,然后反馈到DBA这里的时候就是最终的sql语句了,DBA查询得到数据,然后反馈给业务部门.大体的流程是这样的.    但是现在的问题是,业务部门需要提供的id有60多万个,开发部门看

ORACLE9I中外部表的使用

oracle ORACLE9I中外部表的使用 说明: 这个帖子讲述Oracle9I外部表(External Table)的初级使用. 什么是外部表? External table和正规的表很相似,具体的定义可以参见<Oracle概念手册>,以下的几点需要注意:    >创建的语法类似于: "CREATE TABLE ... ORGANIZATION EXTERNAL"    >数据在数据库的外部组织,是操作系统文件.    >操作系统文件在数据库中的标志是

如何使用Oracle的外部表访问跟踪文件

前面说过Oracle的外部表可以用来访问警告日志文件,其实Oracle的外部表可以非常灵活的被使用. 通过Create Directory命令创建相应的Directory之后,我们可以将目录的访问权限授予其他用户,这样其他用户就能通过外部表访问很多主机上的文件. 我们看一下使用外部表访问跟踪文件的例子(我的例子是用SYS用户来完成的). 首先创建一个指向跟踪文件的Directory: [oracle@jumper oracle]$ sqlplus "/ as sysdba" SQL*P

Oracle技术:使用Oracle的外部表查询警告日志文件

从Oracle9i开始,Oracle的外部表技术(Oracle External Tables)被极大的增强,通过外部表访问外部数据增强了Oracle数据库和外部数据源进行数据交互的能力,对于数据仓库和ETL来说,这些增强极大的方便了数据访问. 对于DBA来说,最常见一个例子是可以使用外部表来访问警告日志文件或其他跟踪文件. 以下一个例子用来说明外部表的用途. 首先需要创建一个Directory: [oracle@jumper oracle]$ sqlplus "/ as sysdba"

Oracle中利用数据泵导出查询结果(二) 外部表的卸载功能

还是上一篇中的测试环境: SQL> CREATE TABLE T1 2  (ID NUMBER, NAME VARCHAR2(30)); Table created. SQL> INSERT INTO T1 2  SELECT ROWNUM, TNAME 3  FROM TAB; 66 rows created. SQL> CREATE TABLE T2 2  (ID NUMBER, NAME VARCHAR2(30)); Table created. SQL> INSERT IN

如何从Oracle 9i SQL*Loader中生成外部表定义

Oracle 9i中引入的外部表允许您将一个顺序文本文件映射到一个Oracle表定义中.一旦您定义了外部表,您就能应用SQL SELECT语句的所有功能--包括并行查询--来处理它. 外部表以SQL*Loader为基础,但定义它们的语法有所不同.如果您已经熟悉SQL*Loader,就有一条捷径:应用SQL*Loader本身生成一段为您建立外部表定义的脚本. 当您添加一个SQL*Loader命令行时,参数EXTERNAL_TABLE=GENERATE_ONLY,它将把系统使用的控制文件转译成一段S