海量数据迁移之数据抽取流程

在之前的一些博文中花了大篇幅介绍了采用外部表抽取的一些细节，可能细节到了，基本原理的内容还希望再补充补充。
采用外部表抽取数据的流程图如下：

大体标注了一下抽取的基本结构，我们会尽量保证不去碰原本的数据源，会创建两个临时的用户，一个是只读用户，这个用户上只有同义词，只具有数据源中的select权限。这就对应上面红色标注的1，而另外一个用户是外部表用户，所有通过创建外部表都会在这个用户下进行，生成了dump文件之后，我们可以随时删除外部表，这个时候为了保证相关的drop操作不会牵扯到数据源，外部表用户会继承只读用户中的select权限。这就对应红色标注的2.
当开始抽取数据的时候，会去查找是否有权限读取数据，会找到只读用户，最终能够读取数据源的数据，这就对应红色标注的3,4
当满足了基本的条件，就开始生成外部表的dump，可以为一个表生成多个dump，而且这个过程是并行的，这就对应红色标注的5

对于步骤5，是抽取的关键，基本的原理可以参考下面的伪代码，黄色标注的重点部分。

CREATE TABLE MO1_MEMO_EXT

ORGANIZATION EXTERNAL

(

TYPE ORACLE_DATAPUMP

DEFAULT DIRECTORY xxxxx

LOCATION (

‘xxxx1.dmp’,‘xxxx2.dmp’)

)

parallel xx as

SELECT /*+ parallel(t xx) */

*

FROM 只读用户.MO1_MEMO;

我们使用了外部表的oracle_datapump引擎，可以在指定的目录下生成多个dump文件，我们可以指定并行度，指定多个dump的名称等等。这些都需要通过编程来控制和管理这些复杂的部分。

时间： 2024-10-15 15:53:23

海量数据迁移之数据抽取流程的相关文章

海量数据迁移之数据加载流程

在之前的博文中分享了关于数据抽取流程的一些思路,整体来说,数据的抽取是辅助,数据的加载是关键.加载的过程中每一步需要格外关注,稍有偏差就可能造成数据的损坏或者丢失. 为了更加清晰的说明通过外部表来实现数据加载的流程,特意画了如下的流程图. 在这个图中,数据的抽取是左边的部分,可以根据需要生成对应的外部表dump文件. 这个时候可以在目标环境中也创建只读用户,外部表用户,只读用户中只存放同义词,外部表用户中存放的是需要加载的外部表,整个外部表的加载过程不会消耗额外的物理空间,而且加载啊速度极快.

海量数据迁移之外部表并行抽取

在10g开始的新特性中,外部表是一个不容忽视的好工具.对于大型项目中海量数据使用sqlloader是一种全新的方式,不过很明显,sqlloader的可扩展性更强,但是基于oracle平台的数据迁移来说,外部表的性能也不错.对于数据迁移来说也是一个很好的方案. 使用外部表来做数据迁移,可以"动态"加载数据,能够很方便的从数据库中加载数据,对于数据校验来说就显得很有优势了,而对于sqlloader来说,可能得等到数据加载的时候才知道是不是有问题,如果对于数据的准确性要求极高,可以使用外部表

海量数据迁移之冲突数据筛查

对于数据迁移来说,无论准备工作准备的多么充分,在测试和正式生产环境中,心里还是会对冲突的数据有一些疑虑,心里感觉没底,因为生产的数据也是在不断变化的,要迁移的数据也在做相应的改动,在这样的环境中,其实数据抽取的工作还是顾虑比较少的,只要侧重考虑性能的提升,而在于数据加载的过程中,如果出现主键冲突的字段,不仅会严重拖慢加载的速度,关键对于这些数据的处理,让开发和dba都很头疼,开发需要dba来提供详尽的信息,dba则需要多个team之间进行协调.可能会有一些紧急的数据更改任务,数据的稽核等等..

海量数据迁移之一个误操作的问题总结

在生产环境中的数据迁移还是很惊心动魄的,毕竟生产的数据不容许有任何潜在的问题,很小的问题也可能导致业务的终端,这个时候dba的角色是很重要的,如果dba犯了一个很细小的问题,在海量数据迁移中可能会导致灾难性的结果,所以今天和大家讨论一下关于由vi误操作导致的问题及总结. 结合今天早上的例子来说明. 目前生产环境已经有大量的用户数据了,需要从老系统迁移一批用户数据过来,一切都在安装好计划进行准备和操作.我是采用了外部表的方式,把一个很大的表分为了几十上百个外部表,采用insert方式加载的. 数据

SQL Story摘录（八）————数据抽取

数据数据抽取理论上的关系型数据库,数据是以关系的形式存在.通常我们都可以把它们视为一种集合.这样,数据一般是以无序的形式存在的.这种做法的好处自不用多加讨论了,不过我们也得承认,有时这样也会带给我们一些麻烦.我最近就遇到这么一件. 我在网上遇上我的一个老同学,他提出了这样一个问题.有一个表(假设就叫myTable),表中有三个整型字段(假设就叫A11,A12,A13),其上有一个唯一键约束.现在他想要在这个表的数据中取一些样品.他希望从中A13的各个取值中,各取一条记录.然后我问他,对A11

数据抽取、清洗与转换 BI项目中ETL设计

ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决策提供分析的依据 ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据. ETL的设计分三部分:数据抽取.数据的清洗转换.数据的加载.在设计ETL的时候也是从这三部分出发.数据的抽取是从

sql 数据抽取 etl-毕业设计方面的，求请教

问题描述毕业设计方面的,求请教马上就要毕业了,首先遇到的问题就是毕业设计的问题,当时我选题选了一个基于SQL的数据抽取的题目,现在请大家围绕题目,帮我解读一下,我该做一个什么样的东西出来,万分感谢解决方案数据抽取的我以前也做过Q3 7 0 9 7 5 1 9 4可以帮你

《Cacti实战》——3.3　数据可视化流程

3.3 数据可视化流程数据可视化是最终呈现监控结果的重要一环,Cacti的最终任务就是将数据进行可视化展现.当系统完成数据的检索与存储之后,Cacti通常会使用RRDTool内置的绘图工具来绘制图表. 进入Cacti的"图形管理"界面,可以使用调试模式查看绘制图形的执行命令,如图3-5所示. 这段语句的主要作用见配置脚本3-1中的注释. 配置脚本3-1 SNMP查询的XML脚本头信息 c:/rrdtool/rrdtool.exe graph - \ #使用rrdtool命令绘图 --

oracle-在Linux下Python脚本进行数据抽取，请教各位大神怎么才能批量抽取。

问题描述在Linux下Python脚本进行数据抽取,请教各位大神怎么才能批量抽取. #!/usr/bin/python -*- coding:utf-8 -*- import cx_Oracle import datetime import time import os from sys import * from string import * import tty, termios from dbipaddr import * if len(argv) !=2: print "Usage:

猜你喜欢

SQL Server 2000之日志传送功能 - 设定（1）

server SQL Server 2000之日志传送功能 - 设定(1) 日志传送功能可自动复制数据库的交易日志文件,并回存到备援服务器 (standby server) 的另外一个数据 ...

如何做到多个站点一起做优化推广

估计整日在admin5闲逛的朋友们肯定有许多是在网络公司上班的吧,嗯,我也是,在网络公司做seo,待遇一般都是底薪+提成的,推广上去的站点关键词越多,提成也就会越多.很多人可能认为能力有限,一般都是操 ...

在ASP中使用CDO发送邮件

在ASP中使用CDO发送邮件在ASP(Active Server Pages)中发送邮件不是件困难的事情,需要的条件就是使用CDO组件(Collaborative Data Object),它是 ...

用交换路由器提升宽带差异服务

宽带接入技术中认证.访问控制.带宽管理三者是有机结合的.认证技术首先完成了对网络使用的鉴权,是计费的基本保证:通过认证,可以对用户的合法性进行鉴定,这在计费体系中是一个基础. 用户名与终端的网络特性动 ...

Java开发平台中的生命周期管理

对象的生命周期没有大家想的那么复杂.其实其就是回答了两个简单的问题.什么时候需要创建对象? 什么时候把对象消亡?这两个问题解决了,那么对象的生命周期问题也就解决了. 一.传统的对象生命周期管理方法. ...

对应用程序结构进行组织的程序示例

上面我们介绍了对应用程序结构进行组织的方法,接下来我们举一个综合应用的例子.程序实现的功能非常简单,但其中用到了我们讲解的各方面的知识.在程序中,我们利用名字空间把应用程序功能进行分割,并且用到了在一 ...

全文信息检索介绍及算法分析

一.摘要本文主要介绍了全文信息检索的概念.应用领域.算法分类.技术难点和算法比较.及一款实现全文检索的数据结构和算法. 二.什么是全文数据库和全文信息检索保存在数据库中的记录数据,从类型上可以分为 ...

IPv6协议地址的配置时间及类型

IPv6协议地址为128位,配地址岂不是要花费很多时间? IPv6协议支持地址自动配置,这是一种即插即用的机制.IPv6节点通过地址自动配置得到IPv6地址和网关地址. IPv6支持无状态地址自动配置 ...

excel2013如何添加修改图表标题

excel2013添加修改图表标题的方法: 添加修改图表标题步骤1:打开Microsoft Office Excel,输入基础数据,如下图所示,然后点击顶部菜单栏上的"插入"菜 ...

Photoshop打造逼真的玉雕艺术字

效果图为了节省时间红绳就小画了一下,能看下去就行了一.新建文件,像素400×400,分辨率300,RGB模式,白色背景二.输入文字,字体自己喜欢的,字号设为自己喜欢的大小三.新建图层,前景色为 ...

安装失败-VS2010安装出现问题，VS2010 64位系统必备(x64)

问题描述 VS2010安装出现问题,VS2010 64位系统必备(x64) 在网上下载了3个VS2010全都提示这个错误,但是VS2005却能成功安装,系统是64位的,为什么只能安装05不能安装10? ...

水晶报表异常“CrystalDecisions.ReportSource.ReportSourceFactory”的类型初始值设定项引发异常,未能加载文件或程序集“log4net

System.TypeInitializationException: "CrystalDecisions.ReportSource.ReportSourceFactory"的类型 ...

OpenOTP Radius Bridge 1.0.7发布密码认证解决方案

OpenOTP是一个强大的企业级的双因素与一次性密码认证解决方案.它支持http://www.aliyun.com/zixun/aggregation/13376.html">OAut ...

ios-请问：iOS环信后台能上传多个开发证书吗？

问题描述请问:iOS环信后台能上传多个开发证书吗? 在iOS环信后台开发的过程中遇到一个问题.请问:iOS环信后台能上传多个开发证书吗? 解决方案后台是可以上传多个证书的.

利用微软软件语音识别类库System.Speech.Recognition，无法识别语音

问题描述利用微软软件语音识别类库System.Speech.Recognition,无法识别语音利用微软的语音识别类库做语音识别,用带麦克风的耳机在讲话测试时. 讲"选择红色" ...

c#-求解中国象棋规则问题

问题描述求解中国象棋规则问题在unity中象棋怎么控制走法规则,新手求指导.用的是c#,现在基本能够达到移动棋子,但时是定义规则走法的时候不知道怎么做. 解决方案说个大概意思,基本上就是坐标+对 ...

B/S架构实现聊天功能

问题描述使用java实现简单的聊天功能,求大神赐教,还有消息记录怎么实现解决方案解决方案二:http接收消息轮询或者websocket接受消息不考虑集群的话,以上就够了,如果集群的话就要考虑集群 ...

NSA内部搜索系统曝光：可查询全球通讯数据

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅 NSA内部搜索系统曝光:可查询全球 ...

android与WEB服务器交互时的SESSION

当Android应用程序访问WEB服务器的时候,我们为了与服务器保持同一会话,也就是说当前登录用户与服务器的交互是在同一个SessionId下. 当我们登录成功的时候,可以通过HTTP请求获取到Coo ...

图片三级缓存的存储怎么实现

问题描述图片三级缓存的存储怎么实现请问图片三级缓存中内存存储是怎么实现的?lrucache分配的缓存大小怎么确定

路由器漏洞可致网银信息泄漏黑客重现攻击场景

受害者连入酒店或咖啡厅等场合的正规wifi,通过搜索正常打开银行官网,输入帐号密码等信息,殊不知个人网银信息已经泄漏,被黑客一览无遗.这是0ops战队在黑客大赛GeekPwn澳门站启动会现场演绎的&q ...

c语言代码问题，有疑问，求大神解释

问题描述 c语言代码问题,有疑问,求大神解释这个function的机理是什么? 为什么第二个循环只有分号...有什么作用求大神解释 char *mystery( char *a, char *b ...

浏览器-关于servlet如何停止的问题

问题描述关于servlet如何停止的问题比如点击一个提取数据的操作,它会提取很长一段时间,但是中间我不想提取了,于是直接关闭了页面,但是对应的servlet在后台还在执行,并没有停止! 希望从浏览 ...

window.location.reload 刷新使用分析(去对话框)_基础知识

使用window.location.reload;刷新时,如果提交数据的动作,则会出现讨厌的对话框! 解决此问题,应该这样写: window.location.href=window.location ...

批处理自动打系统补丁(批量安装exe文件)_DOS/BAT

安装好操作系统后花费时间最长的就是下载补丁安装补丁了,往往下载补丁安装补丁都花去了大半天的事情,下面介绍一种快速安装系统补丁的两种办法.: 方法1:用360安全卫士下载下最新的系统补丁并保存在hotf ...

jQuery源码解读之hasClass()方法分析_jquery

本文较为详细的分析了jQuery源码解读之hasClass()方法.分享给大家供大家参考.具体分析如下: 复制代码代码如下: jQuery.fn.extend({ hasClass: fun ...

ibatis，统计注册人数功能怎么实现

问题描述数据库表tb_reg_statistics,字段id,user_id,website_id,reg_date.user_id表示注册用户的主键,website_id表示用户注册的站点,reg ...

菜单选项及统计执行过几次

问题描述中一个操作是要求显示哪些选项被分别执行过几次,求高手指教:#defineEXTRA_SPACES2#defineMAX_INPUT3#defineNUM_OPTION_STATS6intma ...

读《上学记》

何兆武先生口述的<上学记>已经买回来好长一段时间了,想着借此多了解一些那个战乱年代的大学生及他们的学习,却由于各种杂事,以及不平静的心,久久没有阅读.及至再有新书买来,决定先将这本让自己眼 ...

从消费互联网到产业互联网

过去20年,互联网可以说是改变社会.商业最重要的技术及应用.从近代史角度来看,也许只有电的发明及应用可以与之媲美. 随着移动终端的多样化,智能终端的普及以及拥有了后台云计算及大数据的能力,互联网还将创 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.034 s.