用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络

如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。

一.RDS

经典网络RDS

想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。

经典网络的RDS 可以设置内网地址和外网地址。由于经典网络EMR集群只有master节点可以访问公网,并且sqoop是用map任务同步数据可能在任意节点上运行,所以sqoop任务需要配置连接RDS的内网地址来连接。另外,需要确保EMR集群的内网ip在RDS白名单里。

图1. RDS内网地址

图2. EMR创建集群指定经典网络类型

VPC网络RDS

如果RDS在VPC网络下,EMR集群也需要指定用VPC网络。最好让EMR集群和RDS在同一个vpc网络内,这样可以直接访问RDS地址。如果在不同的vpc网络下,需要通过高速通道打通网络连接。

图3. EMR创建集群指定VPC网络

二. ecs自建数据库

经典网络

访问经典网络的自建数据库跟经典网络的RDS类似,也需要EMR集群指定使用经典网络,访问自建数据库的内网地址。区别是需要将数据库所在的ecs实例和EMR集群的实例放在一个安全组内。可以在ecs控制台-安全组-管理实例将数据库ecs实例添加进EMR集群的安全组里。

图4. 加入安全组

VPC网络

访问VPC网络的自建数据库跟VPC网络的RDS类似,EMR集群指定使用VPC网络。额外要做的是将数据库ecs实例和EMR集群实例放到同一个安全组里

三. 云下私有数据库

有两种方式访问云下私有数据库,一种是绑定弹性IP(EIP)访问数据库的公网地址,一种是将云下数据库通过高速通道和VPC网络互联

绑定EIP

如果云下私有数据库可以通过公网访问,推荐EMR集群使用VPC网络。

创建一个VPC网络的EMR集群,创建成功后在ecs控制台给集群的每个ecs实例绑定一个EIP,就可以访问私有数据库的公网地址了。绑定的操作方式在ecs控制台-ecs实例后的管理-配置信息-更多-里面选择绑定弹性IP.

图5. 绑定弹性IP

高速通道

如果私有数据库不能在公网暴露,可以创建一个VPC网络类型的EMR集群,通过高速通道连接私有IDC和阿里云上的vpc集群。高速通道详情请参见
高速通道产品文档

时间: 2024-10-30 13:51:15

用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络的相关文章

mysql-数据库集群都用的什么数据库,oracle不得贵死

问题描述 数据库集群都用的什么数据库,oracle不得贵死 听一帮大牛在谈数据库集群,就想问问,有人说用的mysql.因为价格因素 解决方案 mysql的确用的比较多一些.不光是价格问题,而且mysql的解决方案也比较多. http://www.zhihu.com/question/29088685 解决方案二: 数据库集群都用的什么数据库,oracle不得贵死 Oracle的成本太高,原来阿里就用的Oracle,考虑成本及其它因素,换成Mysql,建议用Mysql,这个免费 解决方案三: 现在

ASP.NET集群内容缓存工具NWebCache

Alachisoft 发布的NWebCache,这是一个ASP.NET集群内容缓存工具.NWebCache缓存动态页面和根据数据库依赖,当数据库修改时保持同步.NWebCache同时提供基于session的缓存,允许多个session共享缓存内容,也允许不同session分别缓存页面内容. NWebCache几乎可以缓存所有类型的响应,包括ASP.NET输出,视图状态,HTML 页面,图片,脚本文件,PDF文件等.任何HTTP/HTTPS请求,只要需要与web服务器通讯都会通过NWebCache

《Hadoop实战手册》一1.4 使用Sqoop从MySQL数据库导入数据到HDFS

1.4 使用Sqoop从MySQL数据库导入数据到HDFS Sqoop是Apache基金下的一个项目,是庞大Hadoop生态圈中的一部分.在很多方面Sqoop和distcp很相似(见1.3节).这两个工具都是构建在MapReduce之上的,利用了MapReduce的并行性和容错性.与集群间的数据复制不同,Sqoop设计通过JDBC驱动连接实现Hadoop集群与关系数据库之间的数据复制. 它的功能非常广泛,本节将以网络日志条目为例展示如何使用Sqoop从MySQL数据库导入数据到HDFS. 准备工

MySQL集群节点宕机,数据库脑裂!如何排障?

作者介绍 王晶,中国移动DBA,负责"移动云"业务系统的数据库集成架构设计.运维.优化等工作:擅长技术领域MySQL,获Oracle颁发的"MySQL DBA"官方认证,熟悉MySQL复制结构.MHA.cluster等多种架构及运维优化.   发现故障的时间正值大年初二,在各种铺天盖地的拜年信息和微信红包之中,我发现了手机上的这条告警通知:   PROBLEM:Disaster: Galera cluster has node down.我生产环境的Galera集群

打造大数据产业集群,清数科技的大数据版图如何实现?

责任编辑:editor004 作者:周丽梅 |  2016-10-10 11:49:18 本文摘自:猎云网   近几年来,从社交网络到电商,再到"互联网+"的不断地发展,人们在网络上产生的数据"足迹"越来越多,大数据呈现出的商业价值日渐凸显.因海量数据的产生,数据存储.分析.挖掘及可视化过程所展现出来的巨大商业价值需要被发掘和激活.猎云网最近接触到的成都清数科技,其立足于大数据技术,致力于打造大数据产业集群,延伸出的商业价值,不容小觑. 清数科技是由一批海内外科学家

使用E-MapReduce集群sqoop组件同步云外Oracle数据库数据到集群hive

E-MapReduce集群sqoop组件可以同步数据库的数据到集群里,不同的数据库源网络配置有一些差异网络配置.最常用的场景是从rds mysql同步数据,最近也有用户询问如何同步云外专有Oracle数据库数据到hive.云外专有数据库需要集群所有节点通过公网访问,要创建VPC网络,使用VPC网络创建集群,给集群各节点绑定动态ip,检查网络链路,Oracle数据库还上传oracle jdbc jar.本文会详细介绍具体的操作步骤. 创建vpc专有网络集群 如果没创建过VPC专有网络和子网交换机,

pgpool集群postgresql

问题描述 pgpool集群postgresql 我用pgpool进行postgesql的主从流复制集群,pgpool里有个失败进行主库切换的标签: failover_command = '/usr/local/bin/failover_stream.sh %d %P %H /tmp/trigger_file0' 官方手册推荐的 这种方案中的脚本, 我用这种方案配的时候出现了以下问题 1:一般在刚装好的时候主库失败从库会接替变成可读可写的主库,但是切换了两回后再重新连就会出现主库挂掉时从库虽然能用

MySQL的集群配置的基本命令使用及一次操作过程实录_Mysql

1. 先了解一下你是否应该用MySQL集群. 减少数据中心结点压力和大数据量处理,采用把MySQL分布,一个或多个application对应一个MySQL数据库.把几个MySQL数据库公用的数据做出共享数据,例如购物车,用户对象等等,存在数据结点里面.其他不共享的数据还维持在各自分布的MySQL数据库本身中. 2. 集群MySQL中名称概念.(如上图) 1)Sql结点(SQL node--上图对应为MySQLd):分布式数据库.包括自身数据和查询中心结点数据. 2)数据结点(Data node

Redhat 6.5下MySQL5.6集群配置方法完整版_Linux

1.准备三台服务器2.为三台机器分别安装Linux操作系统(Oracle Linux / RHEL 6.5 x86_64bit)3.分别IP地址 管理节点      192.168.1.110        (负责管理整个集群) SQL节点      192.168.1.111        (负责操作数据库) SQL节点      192.168.1.112        (负责操作数据库) 数据节点      192.168.1.111        (负责存储数据) 数据节点      1