ODPS数据迁移指南

1. 背景调研

1.1 ODPS源与目的集群

调研项	内容
ODPS源集群版本
ODPS目的集群版本
ODPS源与目的是否在一个集群/可使用相同账号
ODPS源集群AccessKeyId
ODPS源集群AccessKeySecret
ODPS目的集群AccessKeyId
ODPS目的集群AccessKeyIdSecret

1.2 预迁移数据统计

所属Project	表名	大小	是否要迁移增量
Project1	Table1	Desc查看表大小

2. 工具选择与方案确定

目前有四种方式可用于ODPS的数据迁移。

如果源与目的ODPS在一个集群，或可使用相同账号，则推荐使用ODPS COPY TASK的方式进行迁移；
如果表的数量少，可通过手动建立CDP任务的方式进行迁移；
如果表的数量多，可通过调用Base CDP API接口的方式批量建立CDP任务，但目前此API接口还不成熟，和页面有较多关联；
如果是不同集群，不同账号体系下的ODPS数据迁移，则采用使用Datax工具进行迁移，迁移所需的配置文件，可用脚本批量生成；

3. 具体实施

3.1 表（分区）结构迁移

本部分操作，可通过调用ODPS的SQL来完成。具体可编写程序，调用ODPS SDK或ODPS cmd工具来进行。
对预迁移的表，在源ODPS中获取表结构，根据表结构，在目标ODPS中批量运行组装好的建表语句，即可完成。

3.1.1 要迁移的表名梳理

根据1.2中调研结果，梳理出表名列表；
此步骤，也可使用show tables语句获取表名，然后将临时表等不需要迁移的表名去除；

3.1.2 生成DDL建表（分区）语句

此步骤操作，在ODPS源端进行，可使用ODPS CMD工具。其配置文件位于config/odps_config.ini，配置项如下：

project_name=
access_id=<accessid>
access_key=<accesskey>
end_point=http://service.odps.aliyun.com/api

这里注意，专有云环境下的end_point需要联系专有云管理人员获取。

在Bash环境下，执行如下示例语句，导出表结构。请根据实际情况改写shell语句，例如读取表名列表文件等。这里的odps_config.ini.src是源端ODPS的配置文件。

for table in tab1 tab2 tab3
do
odpscmd --config=odps_config.ini.src -e "export table $table "|awk -F ':' '{print $2}' >>tab.ddl
done

3.1.3 建立对应表（分区）

将ODPS CMD的配置文件配置成目的ODPS，然后执行如下实例语句。这里的odps_config.ini.dst是目的端ODPS的配置文件。

odpscmd --config=odps_config.ini.dst -f tab.ddl

3.2 数据迁移

3.2.1 使用ODPS TASK COPY

注意使用该工具的前提是在同一ODPS集群，或具有相同的账号。示例语句如下所示，请按照实际情况进行修改。

for table in tab1 tab2 tab3
do
odpscmd --config=odps_config.ini.dst -e "copy -d import -t proj_i.$table -url=http://src_odps_tunnel_endpoint/proj_p/$table -a" &
done

src_odps_tunnel_endpoint指源ODPS的tunnel endpoint，专有云环境下，请联系云管理人员获取。odps_config.ini.dst同上只目的端odps 的配置。
Copy命令的解释如下，有助于帮助使用和理解该命令。

copy [-a 或-o] -d [import 或 export] -url [TUNNEL 服务的 url 地址] -t [本地 ODPS 表名] -p [本地 ODPS 分区名] -e [远端 ODPS];
-a (追加模式)把数据附加到目标表已有数据之后
-o (覆盖模式)目标表已有数据被删除，新数据进入目标表
-d IMPORT或EXPORT。IMPORT表示数据从远端集群导入本地集群，EXPORT 表示数据从本地集群导入远端 集群
-url TUNNEL 服务的url地址，其中包含 Project 名，表名和分区名(如果是分区表的话)
-t 本地ODPS集群的表名
-p 本地ODPS集群的分区名，如果该表没有分区，该选项被省略
-e 远端ODPS的访问点(end point)

append(-a)和overwrite(-o)的语义很明确，不过tunnel其实是只支持append操作的，所以-o 命令只不过是帮你执行了一下alter table drop partition然后add partition的操作。
-url 指定的是tunnel地址，分区表的写法http://odps_endpoint_tunnel/prj_name/table_name/month=1,day=1，不需要写引号，多级分区用逗号分隔。
-t 可以写成project_name.table_name的名字
-p 分区名称不需要写引号，多级分区逗号分隔
-e 当前tunnel支持路由功能，copy task将使用-e指定的远端odps endpoint路由到对应的tunnel endpoint

以下举个例子。从源ODPS的 project_a.table_a，分区是ds='ds1'/pt=‘pt1’，导入到目的生产的project_b.table_b，分区是ds='ds2'/pt='pt2'，在目的生产的ODPS CMD上运行:

copy -o -d import -url http://dt-all.ext.odps.aliyun-inc.com/project_a/table_a/ds=ds1,pt=pt1 -t project_b.table_b -p ds=ds2,pt=pt2 -e http://service-all.ext.odps.aliyun-inc.com/api;

3.2.2 使用DataX工具

本步骤利用DataX工具进行数据迁移，DataX是阿里巴巴集团内被广泛使用的离线数据同步工具。
利用datax批量配置工具来生成对应的脚本和json文件。
本步骤流程如下：

进行环境的准备，本步骤需要在迁移机上安装odpscmd与datax工具，其中datax工具和datax批量工具需要python2.6及以上的运行环境；
在datax批量工具的config.ini中进行相关配置，包括源与目的ODPS的accessID与key、odps及tunnel的endpoint、odpscmd与datax的路径等信息；
在tables.ini中填写调试用到的表列表；
运行python datax_tools.py生成对应的脚本和json配置文件；
检查脚本与json配置文件；
运行run_datax.py脚本，批量顺序执行datax任务；
运行check_datax.py脚本，进行条数的检查；

3.2.2.1 批量配置工具

批量配置工具的流程如下：

配置源与目的端的基础信息；
读取并校验源与目的端的表结构和分区信息；
根据校验结果，生成DataX所需的json文件；
生成顺序运行Datax迁移命令的脚本文件；
利用select count(*)的方式进行条数检查;

代码示例详见Datax批量工具，可自行修改优化。

3.2.2.2 DataX使用与调优

本部分详见Datax的使用文档。

时间： 2025-01-21 01:19:39

ODPS数据迁移指南

1. 背景调研

1.1 ODPS源与目的集群

1.2 预迁移数据统计

2. 工具选择与方案确定

3. 具体实施

3.1 表（分区）结构迁移

3.1.1 要迁移的表名梳理

3.1.2 生成DDL建表（分区）语句

3.1.3 建立对应表（分区）

3.2 数据迁移

3.2.1 使用ODPS TASK COPY

3.2.2 使用DataX工具

3.2.2.1 批量配置工具

3.2.2.2 DataX使用与调优

ODPS数据迁移指南的相关文章

DRDS到ODPS数据迁移指南

ODPS到ODPS数据迁移指南

ODPS到ADS数据迁移指南

DRDS向ADS数据迁移指南

MaxCompute跨Region数据迁移指导手册

PgSQL · 最佳实践 · 云上的数据迁移

CRP升级到RDC，迁移指南

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

云端数据迁移最佳操作指南