基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES!

但客户担心香港与大陆之间数据连通性问题,我的回答依然是YES!

为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据,有图为证!

准备工作

1、注册并开通阿里云账号、Access id、Access Key;开通方法:https://help.aliyun.com/document_detail/47703.html?spm=5176.doc30266.6.544.NLgOin

2、购买并开通香港区域经典网络ECS;购买地址:https://ecs.console.aliyun.com/#/create/prepay/?data=eyJkYXRhIjp7InZtX3JlZ2lvbl9ubyI6ImNuLWhvbmdrb25nLWFtNC1jMDQifX0%3D

3、下载并搭建MySQL 5.7 ;下载地址:https://dev.mysql.com/downloads/windows/installer/5.7.html

4、购买并开通MaxCompute、大数据开发套件;开通方法:https://help.aliyun.com/document_detail/30263.html?spm=5176.doc30262.6.546.El4j9u


跨区域数据同步

1、设置ECS安全组

进入ECS管控台->ECS管理,设置安全组,添加外网3306 IP访问权限;

 

 

 

2、添加数据源

通过控制台进入大数据开发套件;

点击数据集成->左侧列表"数据源"页面->点击右上交“新增数据源”;

输入数据源MySQL57_hk,选择MySQL 经典网络,MySQL的JDBC地址、账号信息;

点击连通性验证网络;如果不通,请参照本文常见问题;

3、创建并设置同步任务

点击进入同步任务,选择需要导入的源表;

数据源MySQL57_hk,选择或通过搜索框查找"movie_info_mysql_hk",点击下一步;

选择目标数据库opds_first,点击快速建表,同步表结构,修改脚本中的表名,改为movie_info,点击提交;

分区信息默认为时间变量,点下一步;

字段自动映射,跳过即可;

通道控制默认,点击下一步;

预览后,点击保存;

点击保存后,命名数据同步任务名称hk_mysql_data1;

4、执行并验证数据

手动执行数据同步,点击运行,选择当天时间戳;

 执行完成后,我们去验证一下数据;

进入大数据开发套件->数据开发;

 

验证导入的数据;

 


实验遇到的问题 

Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败, 数据库连接串:jdbc:mysql://47.90.89.23:3306/MySQL57-hk, 用户名:root, 异常消息:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.

A:进入ECS安全组规则->设置网络入口访问权限,测试的话可以设置为0.0.0.0/0;

Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败, 数据库连接串:jdbc:mysql://47.90.89.23:3306/mysql, 用户名:root, 异常消息:null, message from server: "Host '121.43.110.160' is not allowed to connect to this MySQL server"

A:MySQL设置远程访问权限,参照:http://kouss.com/aliyun-ecs-mysql-allow-navicat.html

 

时间: 2024-11-03 21:52:37

基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute的相关文章

[小白技巧]如何在Linux上检查MySQL数据表的存储引擎类型

[小白技巧]如何在Linux上检查MySQL数据表的存储引擎类型 数据库表的类型? MySQl主要使用两种存储引擎:MyISAM 和 Innodb.MyISAM是非事务的,因此拥有读取更快,然而InnoDB完全支持细颗粒度的事务锁定(比如:commit/rollback).当你创建一张新的MySQL表时,你要选择它的类型(也就是存储引擎).如果没有选择,你就会使用与预设置的默认引擎. 如果你想要知道已经存在的MySQL数据表的类型,这里有几种方法达到. 方法一 如果你可以访问phpMyAdmin

数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。

免费开通大数据服务:https://www.aliyun.com/product/odps "我们选择数加平台的主要目的是数加平台本身大数据应用的能力和平台的成熟度,当然背后还有很多能陪我们一起996战斗的数加兄弟们,无论是技术能力的判断,还是从商业合作的角度,这是选择数加的考虑.""可以毫不保留的来讲,我们现在内部团队具备的大数据处理的能力相当于阿里巴巴的处理能力,所以我们能够很快速.便捷的给我们的品牌提供多样化的丰富的完整闭环的大数据的营销和解决方案的能力"熊大

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

  数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台.   本次分享嘉宾是来自阿里云大数据的技术专家祎休!   背景与总体思路   数据仓库是一个面向主题的.集成的.非易失的.反映历史变化的数据集合,用于支持管理决策.其结构图如下所示:     随着大数据.云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快:数据来源多:系统耦合多:应用深度深.业务变化

【直播沉淀】基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台. 本次分享嘉宾是来自阿里云大数据的技术专家祎休! 演讲1:背景与总体思路 演讲2:架构及模型设计 演讲3:基于阿里云数加搭建大数据仓库 演讲4:用大数据治理大数据

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps  想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办? 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 了解更多   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅-Let'

《大数据集成(1)》一1.2 大数据集成:挑战

1.2 大数据集成:挑战 为了更好地理解大数据集成带来的各种挑战,我们给出5个最近的案例研究,实验性地检查大数据集成中的Web数据源的各种特征,以及对这些特征自然分类的维度. "当你能度量你所说的,并能将它表示成数字,那么你就认识它一些了." --Lord Kelvin 1.2.1 "V"维度 大数据集成在多个维度上不同于传统数据集成,类似于大数据不同于传统数据库的维度. 1.海量性(Volume) 在大数据时代,不仅数据源包含大量的数据,而且数据源的数目也增长到千

《大数据集成(1)》一1.3 大数据集成:机遇

1.3 大数据集成:机遇 大数据集成不仅带来许多以"V"维度为特征的挑战,如第1.2节中我们讨论的.另外,大数据集成与管理分析大数据的基础设施也成就许多机遇,以应对这些挑战.我们主要讨论三个这样的机遇. 1.3.1 数据冗余性 从不同数据源得到的数据通常存在着部分重叠,因而导致要被集成的大量数据源之间存在巨大的数据冗余. 在我们给出的航班例子中,这一点非常清楚.例如,有关Airline1航空公司的49号航班的Departure Airport.Scheduled Departure T

《大数据集成(1)》一1.1 传统数据集成

1.1 传统数据集成 数据集成的目标是为多个自治数据源中的数据提供统一的存取.这一目标说起来容易,但实现起来已被证明异常困难,即使是针对少量几个结构化数据源,即传统的数据集成[Doan et al. 2012]. 为了理解数据集成中一些挑战性的问题,这里用一个航空领域的例子来说明.该领域的常见任务是跟踪航班的起飞和降落,检查航班时刻表以及预定航班等. 1.1.1 航班示例:数据源 我们有一些不同类型的数据源,包括:两个航空公司数据源Airline1和Airline2(如美国联合航空公司.美国航空

《能源地图》:阿里云数加MaxCompute轻松处理8000亿条气象数据

免费开通大数据服务:https://www.aliyun.com/product/odps 十三五期间伴随能源互联网的建设,能源大数据及云计算能力长足发展,圈内诸多专家和组织陆续又开始讨论"能源地图"的深化应用, 什么是能源地图: 能源地图 1.反映一定地域范围内能源的发展条件及其水平的地区差异的专题地图.具体说:根据能源种类,如煤炭.石油.天然气.水能.地热.太阳能.风能等,可以分别编制按能量和品种.质量分级的资源分布图,按开采和加工规模分级的能源工业企业分布图,按流向.流量表示的能