step-by-step通过数据集成同步数据到HBase

数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。本文将介绍如何使用数据集成将数据同步到HBase。我们以如下场景为例:线上有两个云HBase集群,想把其中一个集群的数据同步到另一个集群中。

第一步 创建数据集成项目

在使用数据集成同步数据之前,我们需要先在MaxCompute产品首页购买资源并创建一个项目。后续的数据同步任务就是放在这个项目下面执行的。具体步骤参见购买并创建项目
购买的资源不必和HBase在同一地区。如果已经创建过项目,可以忽略这一步。

第二步 准备调度资源

出于安全方面的考虑,目前HBase导入数据只支持本地模式,所以需要用户先申请ECS并将ESC添加到数据同步的资源组用于执行同步任务。

2.1 申请ECS

在HBase所在Region的任意Zone购买一台ECS,然后设置HBase的白名单。
注意:
(1)ECS要能够访问到HBase,在我们的例子中,两个HBase集群都是经典网络,所以我们购买一台经典网络的ECS,然后设置HBase的白名单即可。如果HBase是vpc网络,可参考HBase访问准备
(2)如果HBase和ECS是专有网络的话,ECS需要绑定公网IP,因为公网 IP 对于数据集成的汇报心跳非常重要。在创建时可以选择分配公网IP,也可以创建后绑定弹性公网 IP

2.2 新增调度资源

1、项目管理员进入进入 大数据开发套件-调度资源列表,点击 新增调度资源,填写新增的调度资源名称,如下图所示:

2、添加调度资源后,在弹窗界面内点击新建调度资源操作栏中的 服务器管理,进入服务器添加页面,将购买的 ECS 云服务器添加到资源组,如下图所示:

3、点击增加服务器;

网络类型:选择经典网络;
服务器名称:获取方式:登录 ECS,执行 hostname 命令,取返回值;
机器 IP:输入专有网络 IP。
4、在调度资源管理页面,点击“服务器初始化”,然后按照弹出的提示在ECS上进行操作。

执行完安装命令后,可以看到服务器状态已显示为“正常”。

第三步 创建数据同步任务

HBase目前不支持向导模式,所以需要创建脚本模式任务并修改脚本中的插件配置。

3.1 创建脚本模式任务

1、以开发者身份进入 阿里云数加平台>大数据开发套件>管理控制台,点击“项目列表”下对应项目操作栏中的 进入工作区 ;
2、点击顶部菜单栏中的 数据集成 中左侧导航栏的 同步任务 ;
3、点击界面中的 “脚本模式”;

4、在弹出的“导入模板”中选择自己需要的“来源类型”和“目标类型”,如下图所示:

云HBase的版本是1.1,所以目标类型选择“HBase11x”,我们的例子中,源也是云HBase,所以源类型也选择“HBase11x”。
5、点确定后,会按照模版生成默认的配置,先保存。

3.2 修改插件配置

reader需要改如下几个地方:
(1)column和table按照我们实际情况修改。
(2)我们同步全量数据,所以把range和maxversion删掉。
(3)hbaseconfig中,hbase.rootdir是不需要的,可以删掉。hbase.zookeeper.quorum可以在HBase实例的管理控制台查看。

writer需要修改如下几个地方:
(1)rowkeyColumn。在我们的例子中,源表的rowkey导入过来直接做rowkey,所以把rowkeyColumn里面默认生成的:

          {
            "index": -1,
            "type": "string",
            "value": "_"
         }

删掉。
(2)column和table按照实际情况修改。注意在运行同步任务前要确保已经建好目标表和列族。
(3)versionColumn在我们的例子里不需要,删掉。
(4)hbaseConfig和源插件类似,把hbase.rootdir删掉,hbase.zookeeper.quorum改成目标HBase的zk地址。
其他选项也可以根据实际情况修改。例如,可以修改speed里面的选项增加并行度。具体可参考HbaseReader 配置、HbaseWriter 配置以及脚本模式的配置

我们的例子中,最终的插件配置如下:

{
  "configuration": {
    "reader": {
      "plugin": "hbase11x",
      "parameter": {
        "mode": "normal",
        "scanCacheSize": "256",
        "scanBatchSize": "100",
        "column": [
          {
            "name": "rowkey",
            "type": "string"
          },
          {
            "name": "cf:a",
            "type": "string"
          }
        ],
        "encoding": "UTF-8",
        "table": "test",
        "hbaseConfig": {
          "hbase.zookeeper.quorum": "hb-2ze5mewh34cfy7960-001.hbase.rds.aliyuncs.com:2181,hb-2ze5mewh34cfy7960-002.hbase.rds.aliyuncs.com:2181,hb-2ze5mewh34cfy7960-004.hbase.rds.aliyuncs.com:2181",
          "hbase.cluster.distributed": "true"
        }
      }
    },
    "writer": {
      "plugin": "hbase11x",
      "parameter": {
        "mode": "normal",
        "walFlag": "false",
        "rowkeyColumn": [
          {
            "index": 0,
            "type": "string"
          }
        ],
        "nullMode": "skip",
        "column": [
          {
            "name": "cf:a",
            "index": 1,
            "type": "string"
          }
        ],
        "encoding": "UTF-8",
        "table": "test",
        "hbaseConfig": {
          "hbase.zookeeper.quorum": "hb-2zel37texpqo9umcw-001.hbase.rds.aliyuncs.com:2181,hb-2zel37texpqo9umcw-002.hbase.rds.aliyuncs.com:2181,hb-2zel37texpqo9umcw-004.hbase.rds.aliyuncs.com:2181",
          "hbase.cluster.distributed": "true"
        }
      }
    },
    "setting": {
      "errorLimit": {
        "record": "0"
      },
      "speed": {
        "concurrent": "1",
        "mbps": "1"
      }
    }
  },
  "type": "job",
  "version": "1.0"
}

修改完成后,保存。点击“提交”。

提交任务页面“一次性调度”选不了,如果我们不希望任务周期性运行的话,可以把时间改成当天。

第四步 运行任务

4.1 修改调度资源组

1、进入 大数据开发套件-运维中心-任务管理 页面,点击 列表;

2、选择同步任务,点击 修改资源组;

3、选择我们在第二步创建的资源组,点击 确认。

4.2 运行任务

在任务管理页面,点击 操作-补数据。然后等待任务完成。

任务执行成功,我们在目标HBase里面已经看到有数据了。

时间: 2024-11-01 11:21:50

step-by-step通过数据集成同步数据到HBase的相关文章

Talend Open Studio 5.0.0M3发布 数据集成、迁移和同步工具

Talend Open Studio是一个开源的http://www.aliyun.com/zixun/aggregation/13607.html">数据集成.数据迁移和数据同步的工具,用来提高数据集成作业设计的效率,确认任务执行的最佳效果. Talend Open Studio功能和特性: -业务建模-图形化开发-无数据驱动-先进灵活的连接性能-实时调试-部署与维护-可扩展的强力执行 Talend Open Studio 5.0.0M3版本更新日志: 1.Bugs have been

Talend Open Studio 5.0.0M2发布 数据集成、迁移和同步工具

Talend Open Studio是一个开源的http://www.aliyun.com/zixun/aggregation/13607.html">数据集成.数据迁移和数据同步的工具,用来提高数据集成作业设计的效率,确认任务执行的最佳效果. Talend Open Studio功能和特性: -业务建模-图形化开发-无数据驱动-先进灵活的连接性能-实时调试-部署与维护-可扩展的强力执行 Talend Open Studio 5.0.0M2更新日志: -New features inclu

Talend Open Studio 5.0M4发布 数据集成、迁移和同步工具

Talend Open Studio 5.0M4这是一个具有里程碑意义的版本,伴随着12增强组件和18个错误修正. Talend Open Studio是一个开源的http://www.aliyun.com/zixun/aggregation/13607.html">数据集成.数据迁移和数据同步的工具,用来提高数据集成作业设计的效率,确认任务执行的最佳效果. 下载地址:http://talend.dreamhosters.com/tos/release/V4.2.3/TOS-All-r67

数据集成工具领域,TOP10厂商优劣分析

数据集成是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享.在企业数据集成领域,已经有了很多成熟的框架可以利用.架构师或开发人员对数据集成工具的效率应该有所要求.好的数据集成工具是具有分布式处理能力,可读取,分析,交互,在具有分布式处理能力的动态模型中快速对本地和外来数据做出反应. 1.Actian Actian位于加利福尼亚州雷德伍德市,通过Actian DataConnect和Actian DataCloud提供数据集成功能.Actian的数据集成工具

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

每个人的数据?数据集成自助服务

自助服务的数据集成的概念已经存在了一段时间,有些自助服务商业智能都主要来自于电力企业用户数据和业务分析的视角.但这也为技术准备不足的LOB(企业重要流程线)企业用户开放参与数据集成活动打开一扇门. SaaS和云计算服务引入了自助服务数据集成,其中SaaS提供商或第三方供应商提供了类似向导的用户界面,用于基本的预定义集成或特定应用程序之间的数据同步.这一版本的自助服务数据集成得到了Salesforce生态系统的推动,其中许多都针对的"日常"的商业用户. 数据集成服务似乎是数据民主化的新力

Talend Open Studio 4.2.2发布 开源数据集成软件供应商

Talend Open Studio各种最为先进的功能可以大幅提高http://www.aliyun.com/zixun/aggregation/13607.html">数据集成作业设计的效率,广受认可的扩展性确保了任务执行的最佳效果. 业务建模 Talend Open Studio的业务建模专家采用的top-down设计模式,优势明显,使得business line中所有的人员都可以按照自身在业务中的角色参与到集成设计中,监测开发进度. 业务模型在创建过程中直接使用附带的图形与连接工具库

【技术实验】表格存储Tablestore准实时同步数据到Elasticsearch

实验背景 图书馆Q是一家大型图书馆,图书馆藏书众多,纸质图书600多万册,电子图书7000多万册,总数有八千多万册,这些图书之前都是人工检索维护的,现在需要做一个系统来存储管理这些图书信息.需求如下: 图书总量目前八千多万册,考虑到未来二十年的增长,需要系统能支持一亿的存储量. 图书信息很重要,不能接受丢失发生. 图书的名字和作者名字需要支持模糊搜索. 每本书的属性最多有一百多个,且不固定,不同类型的图书的属性列差异较大.且未来可能会新增属性列. 根据上面这些需求特点,要完成这个管理系统,需要两

Informatica大数据集成解决方案扩展应用

华为与Informatica日前宣布,Informatica PowerCenter数据集成解决方案通过华为Ready测试.该方案部署在华为FusionInsight大数据平台之后,将可提供基于Hadoop大数据平台的ETL(Extract-Transform-Load)处理功能.该技术包含图形化功能强大的ETL处理引擎,能够实现无以伦比的高可扩展性和高性能,为大数据平台提供数据采集.数据转换.数据质量提升及低延时数据同步等能力,从而能够让企业快速.准确地从海量数据中提取关键业务洞察. Huaw