实践 —— 亲测从 RDS MySQL 通过数据集成导入 MaxCompute

我们今天要试的,是从RDS 的MySQL数据库到MaxCompute的 ODPS 的数据同步过程。

往简单了说,就是把源数据库(Read)里的数据,转移到目标数据库(Write)。 DataWorks 产品组里的 数据集成 提供了数据一次性搬移,以及周期性搬移的功能,搬移的细节可以在数据同步任务中设置。

一、 数据源
1、 来源数据源
申请RDS 上的MySQL就不多说了,此处的注意事项是,数据集成服务连接RDS MySQL数据库属于远程连接,需要添加连通允许的白名单,如下图所示设置:


参考链接:RDS数据源配置,如何添加RDS IP白名单

注意:白名单设置我这里很简单,设置为所有ip都可以访问,实际上数据集成服务需要的ip为:

2、 目标数据源
MaxCompte后台用的存储是ODPS,在大数据开发套件里创建的任务默认会带一个ODPS的数据存储,所以需要新建一个project就新建了一个ODPS数据源。


二、 任务配置
进入 数据集成,按照向导模式,将read数据源和write数据源都配置好。

配置来源:

配置目标:

配置字段映射:

预览配置并保存:

配置完成后,就可以运行任务了。点击“运行”会把当前配置好的数据源导入一次。
可以在 DataWorks 产品组中的 数据管理 中查看导入进来的数据表,如下图所示:

笔者尝试过两次导入,一次是几百行,很快完成,一次是大于1亿行,运行了好几个小时,所以要尝试的同学要注意一下,尝试流程时不要试太大的数据集,避免造成运算量过大。

三、 任务运行
测试通过后,可以启动周期调度,点击“提交”后可以就可以进入任务页面了。

按照实际周期同步的需求,设置周期属性,任务提交后,在 运维中心 可以看到任务运行情况。

时间: 2024-08-03 03:13:40

实践 —— 亲测从 RDS MySQL 通过数据集成导入 MaxCompute的相关文章

MySQL大数据量导入导出方法比较

硬件: Intel(R) Xeon(R) CPU 5130 @ 2.00GHz * 2, 4G RAM, 564G SAS 软件: Red Hat Enterprise Linux AS release 4 (Nahant Update 4) 2.6.9 42.ELsmp (32-bit), MySQL 5.0.27-standard-log 总记录数: 1016126, 每行平均大小 46822 1. 导出测试 1.1 导出成文本 方法: SELECT * INTO OUTFILE '/bac

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

MySQL同步数据到本地自建数据库

对业务系统来说,数据可靠性非常重要.如何通过简单的配置,实现适当有效的备份机制并具备快速恢复能力是本最佳实践所要解决的主要问题.阿里云数据库RDS for mysql提供多种方式可以让用户同步数据到本地自建数据库.本文将着重为大家介绍RDS MySQL恢复数据到本地自建库的方法. 1. 如果RDS上的数据没有发生增删改的操作的话,可以生成物理备份或者逻辑备份,然后将物理备份和逻辑备份通过Xtrabackup或者mysqldump将数据导入到自建库. 2. 如果在物理备份已经生成后对于数据库仍然有

SQL Server on Linux BCP工具导出RDS SQL Server数据

摘要: SQL Server发布了Linux版本之后,客户增加了一些新需求,总结主要有以下两种: 1.是否支持在Linux操作系统保存,RDS SQL Server的CSV格式文件到文件系统 2.在一台Linux系统的主机同时管理RDS MySQL实例数据和RDS SQL Server数据 需求解读: SQL Server BCP工具可以满足以上需求,这个工具提供了导出CSV格式的文本,可以保存在Linux文件系统,同时也可以方便的讲这个CSV文件导入到RDS MySQL实例或其他支持标准CSV

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

RDS MySQL空间优化最佳实践

在前三期介绍了RDS for MySQL参数优化,锁问题以及延迟优化最佳实践之后,本期将介绍存储空间相关的最佳实践. 存储空间是RDS很重要的一个指标,在RDS的工单问题中,空间问题的咨询可以排在top 5,当RDS的实际使用空间超过了购买的空间后,实例就会被锁定了,这样就会导致应用无法再写入,更新数据,造成应用的报错.在RDS的控制台中可以设定空间的报警阀值,当实例空间到达报警阀值后用户就会收到报警短信,这个时候用户则需要对判断当前的空间增长是否合理.如果增长合理则需要对实例的进行弹性升级,这

MySQL · 参数优化 ·RDS MySQL参数调优最佳实践

前言 很多时候,RDS用户经常会问如何调优RDS MySQL的参数,为了回答这个问题,写一篇blog来进行解释: 哪一些参数不能修改,那一些参数可以修改: 这些提供修改的参数是不是已经是最佳设置,如何才能利用好这些参数: 哪些参数可以改 细心的用户在购买RDS的时候都会看到,不同规格能够提供的最大连接数以及内存是不同的,所以这一些产品规格的限制参数:连接数.内存用户是不能够修改的,如果内存或者连接数出现了瓶颈: 内存瓶颈:实例会出现OOM,然后导致主备发生切换 连接数瓶颈:应用不能新建立连接到数

RDS MySQL参数调优最佳实践

前言 很多时候,RDS用户经常会问如何调优RDS MySQL的参数,为了回答这个问题,写一篇blog来进行解释: 哪一些参数不能修改,那一些参数可以修改: 这些提供修改的参数是不是已经是最佳设置,如何才能利用好这些参数: 哪些参数可以改 细心的用户在购买RDS的时候都会看到,不同规格能够提供的最大连接数以及内存是不同的,所以这一些产品规格的限制参数:连接数.内存用户是不能够修改的,如果内存或者连接数出现了瓶颈: 内存瓶颈:实例会出现OOM,然后导致主备发生切换 连接数瓶颈:应用不能新建立连接到数

6月23日直播:《NoSQL、RDS和大数据异构融合实战》

欢迎报名在线培训,专家全程在线答疑:https://yq.aliyun.com/webinar/join/18 ,为你详解PostgreSQL FDW原理--PostgreSQL的外部表功能,当前已经支持包括MongoDB.Redis.MySQL等近30种外部数据源,并分享在金融.物联网等领域的案例. PostgreSQL是有着40年历史以核心交易型事务处理为发展重心的关系型数据库,在NewSQL时代它除了支持JSON.GIS等丰富功能外还提供FDW外部数据通道功能,让NoSQL.Big Dat