【大数据新手上路】“零基础”系列课程--MySQL 数据整库迁移到 MaxCompute

随着公司业务的增多,云数据库 RDS 下的 MySQL 数据库的表越来越多,想要把它全部迁移到 MaxCompute 中进行计算分析,但又愁要配置太多次同步任务。如何能将大量的数据表一次性上传到 MaxCompute 中呢?通过大数据开发套件的整库迁移功能,便可快速完成 MySQL 数据整库迁移到 MaxCompute,从而节省同步时间,提高工作效率。

下面介绍一个适用于中小企业用户,高效率低成本的数据同步方案:

对于自建或云数据库 RDS 的 MySQL 数据库中的数据,都可以通过整库迁移功能,快速同步到 MaxCompute 中进行存储与分析,流程图如下:

云数据库 RDS:RDS 是一种稳定可靠、可弹性伸缩的在线数据库服务,本实验主要使用 云数据库 MySQL 版。

MaxCompute:原名 ODPS,是由阿里云自主研发的一款服务,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,它适用于海量数据的存储、计算,商业智能等领域。

大数据开发套件:大数据开发套件提供全面托管的工作流服务,一站式开发管理的界面,帮助企业快速搭建数据中心。

实验目的和前期说明

实验目的:
通过大数据开发套件的整库迁移功能,快速把云数据库中的数据同步到 MaxCompute 中。

前期说明:
用户拥有阿里云官网实名认证账号,并且创建好账号 Access Key。

实验前的准备工作

开通并创建 MaxCompute 项目

1 . 阿里云实名认证账号访问 https://www.aliyun.com/product/odps ,根据自身需求进行购买,开通 MaxCompute;

2 . 点击开通成功页面的管理控制台,进入 MaxCompute 的 控制台页面;

3 . 创建项目。进入控制台页面后导航至 大数据开发套件 — 项目列表,点击 创建项目,如图所示:

4 . 在弹出框中选择区域和付费方式,输入项目名称:

准备同步数据

创建 RDS 实例

1 . 登录 RDS 管理控制台;
2 . 在 实例列表 页面,单击 新建实例,进入 创建 页面;
3 . 选择包年包月或按量付费,示例选择包年包月。关于计费方式的选择,请参见 收费项目及价格说明 中的计费方式;
4 . 根据自身需求选择基本配置、网络类型、规格、存储空间、购买时长和购买量等实例配置,详情请参见:创建实例中的选择实例配置;
5 . 单击立即购买,进入订单确认页面;
6 . 阅读关系型数据库 RDS 服务条款后,根据后续提示完成支付流程。

设置白名单

1 . 登录 RDS 管理控制台,选择目标实例;
2 . 在实例左侧菜单中选择 数据安全性
3 . 在数据安全性页面的默认分组后单击 修改,如下图所示:

4 . 在修改白名单分组页面删除默认白名单 127.0.0.1,填写自定义白名单后,单击 确定,如下图所示:

组内白名单:填写可以访问数据库的 IP 地址或者 IP 段,IP 地址或者 IP 段间用英文逗号分隔。详情请参见:设置白名单中的操作步骤。

创建账号和数据库

1 . 登录 RDS 管理控制台,选择目标实例;
2 . 选择左侧菜单中的 账号管理,单击 创建账号,如下图所示:

3 . 输入要创建的账号信息,单击 确定,如下图所示:

4 . 选择菜单中的 数据库管理,单击 创建数据库,如下图所示:

5 . 输入要创建的数据库信息,单击 确定,如下图所示:

登录数据库

进入数据库管理页面,点击上侧 登录数据库,在弹出页面填写数据库用户名和密码,如下图所示:

创建表并准备数据

1 . 成功登录数据库后,点击 SQL 操作下的 SQL 窗口,如下图所示:

2 . 输入建表语句,点击执行,示例如下:

 CREATE TABLE `a1`
(
    `id` int(11) NULL,
    `col1` varchar(32) NULL,
    `col2` varchar(32) NULL,
    `col3` varchar(32) NULL,
    `col4` varchar(32) NULL
)
 ENGINE=InnoDB
 DEFAULT CHARACTER SET=utf8 COLLATE=utf8_general_ci;

3 . 根据自身需求写入数据即可,insert 语句如下:
INSERT INTO table_name(col_name,...) values(expr,...)

整库迁移配置

新增数据源

1 . 登录到大数据开发套件 数据集成产品页,单击左侧导航栏离线同步—数据源,进入数据源管理页面,如下图所示:

2 . 点击右上角的 新增数据源,添加一个面向整库迁移的 MySQL 数据源 mysql_demo,填写相关信息,如下图所示:


各配置项的说明请参见:RDS 数据源配置之新建 RDS-MySQL 数据源。
3 . 点击 测试连通性 验证数据源访问正确无误后,确认并保存此数据源。

整库迁移

1 . 进入数据源列表页面,找到新增的数据源,点击对应 MySQL 数据源后的 整库迁移,即可进入对应数据源的整库迁移功能界面,如下图所示:

2 . 点击右上角 高级设置 按钮,您可以根据自身需求选择转换规则。比如 MaxCompute 端建表时统一增加了 ods_ 这一前缀,如下图所示:

3 . 根据自身需求选择需要迁移的数据表、同步方式、日期字段、同步并发配置、开始时间和同步数量,如下图所示:

4 . 点击 a1 表后对应的查看任务,会跳转到数据集成的任务开发界面。如下图所示:

由上图可以看到:源头 a1 表对应的 MaxCompute 表 ods_a1 创建成功,列的名字和类型也符合之前映射转换配置。在左侧目录树 mysql_demo 目录下,会有对应的所有整库迁移任务,任务命名规则是: mysql2odps 源表名,如上图红框部分所示。

5 . 此时便成功将一个 MySQL 数据源 mysql_demo 整库迁移到 MaxCompute 的工作。这些任务会根据配置的调度周期(默认天调度)被调度执行,您也可以使用 DataWorks DataIde 调度补数据功能完成历史数据的传输。

通过 数据集成-整库迁移功能 可以极大减少您初始化上云的配置、迁移成本。

时间: 2024-11-05 12:18:22

【大数据新手上路】“零基础”系列课程--MySQL 数据整库迁移到 MaxCompute的相关文章

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps  想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办? 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 了解更多   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅-Let'

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps 概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累. 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集.提炼始终是一个困扰.而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据. 相信很多做过网站管理的人对网站访问日志(Access Log)应该不会陌生,

【大数据新手上路】“零基础”系列课程--日志服务(Log Service)采集 ECS 日志数据到 MaxCompute

随着公司业务的增多,云服务器 ECS 上的日志数据越来越多,存储开销越来越大,受限于日志的大小和格式,分析的速度非常缓慢,导致海量数据在沉睡,不知道发挥作用,如何能将这些数据进行归集.提炼和智能化的处理始终是一个困扰.通过日志服务投递日志数据到MaxCompute便可以让用户按照不同的场景和需求.以不同的方式复用数据,充分发挥日志数据的价值. 使用日志服务投递日志数据到MaxCompute具有如下优势: 使用非常简单.用户只需要完成2步配置即可以把日志服务Logstore的日志数据迁移到MaxC

Photoshop适合新手的零基础配色方案分享

给各位Photoshop软件的使用者们来详细的解析分享一下适合新手的零基础配色方案. 解析分享: 今天对一些配色技巧和方法做一个分享和总结,无论你有美术基础/色彩基础还是零基础,都可以使用此方法创造出安全的配色方案. 所谓安全配色,就是遵循一些设计规范,色彩规范,适应于Web和其它方面的UI设计,在这些色彩的基础上,只要能控制好比例,就可以大胆的配色,无需参考,无需临摹,无需借鉴.一种感性的安全配色,一种符合标准的安全配色. 这次分享介入了一些自己学习过总结过的色彩理论,当然如果同学们能够学习巩

div+css实现的滑动门,简洁,新手上路 (小鸽子系列)_经验交流

网上房展会 本月开盘 知名开发商 栏目导航 哈哈哈哈 Q小鸽子 内容1 内容2 内容3 内容4 内容5 内容6 [Q小鸽子]

基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之间数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据,有图为证! 准备工作 1.注册并开通阿里云账号.Access id.Access Key:开通方法:https://help.aliyun.com/document_detail/47703.html?

DB2与MySQL数据转移

如果您是一位要同时管理 MySQL 和 IBM DB2 Express-C 的 DBA,就需要理解这两种数据库服务器的功能差异.本文是系列文章中的第 4 篇,这个系列帮助具有 MySQL 背景的 DBA 学习如何管理 DB2 Express.在本文中,学习在这两种产品中数据转移技术有何差异.讨论的技术包括 Import.Export.Load 以及专门用于数据转移的其他实用程序. 简介和背景知识 在 2006 年 7 月 28 日,IBM 发布了下一个 DB2 for Linux, UNIX,

《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路

2017年11月15日,清华大学大数据能力提升项目之<大数据系统基础>课程实践项目中期答辩在清华大学六号教学楼顺利举行.160余名同学分为21组,向任课老师和企业导师汇报了各组实践项目的进展情况,任课老师和企业导师根据同学们的汇报表现逐一进行了点评和指导.据悉,本次答辩项目来自于国家发改委.百度.国美等政府机构和知名大数据企业等.项目需求和数据涉及多个行业领域,如"建设工程造价指数"."餐饮行业白皮书周报"."基于语义分析的泛娱乐改编研究&qu