海量数据迁移之使用shell启用多个动态并行

在数据迁移中，可能有成百上千个表，有些表很大，有些表又很小。
如果启用了多个并行的进程，可能会有资源分配上的问题。
比如下面有10个表，100代表预计的时间为100分钟。
table1 100
table2 90
table3 90
table4 80
table5 80
table6 70
table7 60
table8 60
table9 50
table10 40

如果分为4个进程来并行执行，可能一种比较理想的方案就是
parallel1: table1,table8
parallel2: table2,table5,table9
parallel3: table3,table6,table9
parallel4: table4,table7

但是在实际的执行中，可能因为表的分区，表的数据类型，表的存储的不同，可能实际的执行时间会有很大的差别，
可能paralle2，3，4已经执行完了，而parallel1还没有执行完50%。
这样,table8就一直pending在那了。

在这样的情况下，可以考虑使用动态并行，就是能够在后台启用一些并行的进程，比如需要4个并行进程，就使用nohup启用4个并行的进程。
不做具体的数据操作。

parfile=par2_tab_parall.lst
logfile=`echo $parfile|awk -F. '{print $1}`".log"
while true
do
if [ -f $parfile ]
then
   tab_exists_flag=`cat $parfile |wc -l`
   if [ ${tab_exists_flag} -eq 0 ]
     then
      sleep 5;
   elif [ ${tab_exists_flag} -gt 0 ]
     then
     tab_name=`cat $parfile`
     ksh appendata.sh $tab_name >> $logfile
     touch ${parfile}.tmp
     mv ${parfile}.tmp ${parfile}
   fi
fi
done

我们使用appendata.sh来模拟实现数据的插入，其实不会做数据的真实插入，这是模拟日志的内容。

echo $1
sqlplus -s n1/n1
set time on
set timin on
set pages 0
select 'insert into '||'$1;' from dual;

select 'commit;' from dual;
EOF
if [ $? -eq 0 ]
then
echo '' >parallel1.lst
fi

使用如下的命令来启用一个进程，比如下面的命令启用进程2，如果启用其他的进程，命令类似

nohup ksh par2.sh > par2_tab_parall.log &

只需要在一个文件中放入处理的表名即可。如果是进程2,就在par2_tab_parall.lst中放入表名，假设表为test
par2_tab_parall.lst
[ora11g@rac1 parallel]$ cat par2_tab_parall.lst
test

如果放入表test，之后，就会发现第2个进程就开始处理表test了

test
insert into test;

Elapsed: 00:00:00.00
commit;

Elapsed: 00:00:00.01

再放入一个表，马上就会发现进程开始处理表tab_test了，如果没有表的时候，它就在后台做sleep工作。
[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test
insert into tab_test;

Elapsed: 00:00:00.01
commit;

Elapsed: 00:00:00.00

时间： 2024-11-09 09:52:42

海量数据迁移之使用shell启用多个动态并行

海量数据迁移之使用shell启用多个动态并行的相关文章

海量数据迁移之通过shell估算数据量

海量数据迁移之一个误操作的问题总结

海量数据迁移之分区并行切分

海量数据迁移之分区表批量insert性能改进

海量数据迁移之外部表并行抽取

海量数据迁移之外部表切分

海量数据迁移之数据加载流程

如何将海量数据迁移上云

阿里云发布移动数据中心“闪电立方”：为PB级海量数据迁移而生