大数据开发套件-数据集成-云mongo跨区域如何同步到Maxcompute

 在大数据开发套件中是可以实现mongo同步到Maxcompute。

数据集成文档:https://help.aliyun.com/document_detail/47677.html?spm=5176.7750354.6.599.jGn50I
后端是通过华东1区的调度资源进行数据的调度传输。但是如果阿里云mongo不在华东1在其他区域,使用默认资源组就不能正常同步了。那么就需要用户通过自己添加调度机器进行同步。
1,准备一台调度服务器,要求必须和云mongo相同网络类型相同的区域。
官方文档:https://help.aliyun.com/document_detail/52330.html?spm=5176.7849806.6.597.l1cpB0
注意:
*请务必使用内网ip新增注册调度资源
*请务必使用ecs实例的主机名称,要求和机器上 hostname下的主机名称一致,修改后的主机名称会出现异常。
*请注意ecs系统,建议使用 centos6、centos7 或者 aliyunos;
大数据开发套件-项目管理-调度资源管理-新增调度资源
增加主机名和内网ip
然后到ecs服务器上初始化

执行初始化命令会有下图

如果成功初始化,一般会显示下载各种需要的包
最后到控制台看下服务器状态,刷新几次

2,在大数据开发套件-数据集成-数据源-新数据源-选择mongo数据源类型-阿里云数据库

在这里注意,实例id要写对,地区要选对。

另外vpc下的目前是不支持测试连通性,直接点击确认
*
*请务必将新增的调度资源ecs的内网ip加入mongo的白名单
3,在数据集成-新建任务
数据集成中mongo数据源暂时不支持向导模式,选择脚本模式
选择来源是mongo,目标odps(即maxcompute)

然后确认会生成脚本模版
具体配置可以参考

{
  "configuration": {
    "reader": {
      "plugin": "mongodb",
      "parameter": {
        "datasource": "mongoxxxtest",//数据源名称
        "column": [
          {
            "name": "title",
            "type": "description"
          }
        ],
        "collectionName": "shangdantest"//集合名称
      }
    },
    "writer": {
      "plugin": "odps",
      "parameter": {
        "partition": "",
        "truncate": false,
        "datasource": "aliyunxxxodps",
        "column": [
          "title",
          "desc_d"
        ],
        "table": "mongo_test"
      }
    },
    "setting": {
      "errorLimit": {
        "record": "0"
      },
      "speed": {
        "concurrent": "1",
        "mbps": "1"
      }
    }
  },
  "type": "job",
  "version": "1.0"
}

可以参考官方文档配置
https://help.aliyun.com/knowledge_detail/50354.html?spm=5176.7849806.2.13.l1cpB0
配置完成后,点击保存-提交
然后到运维中心-任务管理-找到任务-测试运行看下
任务运行如果失败
到运维中心-任务运维-查看任务运行的日志
日志中如果出现下方错误
*检查数据源,是否把地区和实例id写对了
*检查账户是否是同步库的账户。
如果问题没有解决,可以提交工单咨询阿里云售后工程师

时间: 2024-07-29 06:49:56

大数据开发套件-数据集成-云mongo跨区域如何同步到Maxcompute的相关文章

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

阿里云大数据开发套件 新手不得不面对的问题(持续更新)

概念 大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是"DataWorks"中最重要的核心组件.提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索.https://data.aliyun.com/product/ide 大数据开发套件(Data IDE) 基于MaxCompute作为核心的计算.存储引擎,提供了海量数据的离线加工分析.数据挖掘的能力. 一.计费问题 Q:大数据开发套件贵不贵? A:大数据开发套件不收费,但涉及SQ

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识 写在最前面 >>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务. 基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE<MaxCompute(原ODPS)开发入门指南--数据开发工具篇>,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖.

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

大数据开发套件—调度运维常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 时遇到的常见问题,供大家参考~ Q. 如果之前提交的任务修改后再次提交,是否会影响当天的任务调度? A. 根据修改的内容来确定是否会影响:如果修改的只是 sql 语句,则不会影 响:如果修改自定义参数和调度配置以后重新提交的,都会影响当天的任 务调度 . Q. 创建一个新的工作流任务,如果保存后没有提交任务,是否可以进行测试? A. 仅保存后没有提交,sql 任务可以在本地运行,但不可以提交测试

大数据开发套件中数据同步-日志报错回滚信息的一些问题总结

在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从MaxCompute(原名ODPS)到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题. 那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败.数据写入失败可能是以下原因导致回滚.1,脏数据(数据值超过数据类

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

数加·大数据开发套件目前支持任务调度周期有五种:天.周.月.分钟.小时.本文将介绍这五种周期的配置和调度形态. 调度规则--调度任务是否能运行起来要满足的条件: 上游任务实例是否都运行成功.若所有上游任务实例都运行成功则触发任务进入等待时间状态. 任务实例定时时间是否已经到.任务实例进入等待时间状态后会check本身定时时间是否到,如果时间到了则进入等待资源状态: 当前调度资源是否充足.任务实例进入等待资源状态后,check当前本项目调度资源是否充足,若充足则可以运行起来. 天调度任务 天调度任

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见 天任务依赖小时任务. 小时任务依赖分钟任务 .那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践. 再此之前,我们先明确几个概念: 业务日期:业务数据产生的日期,这里指完整一天的业务数据.在大数据开发套件里任务每天能处理的最近的完整一天业务数据是昨天的数据,所以业务日期=日常调度日期-1天. 依赖关系:依赖关系是描述两个或多个节点/工作流之间的语义连接关系

基于大数据开发套件的增量同步策略

今天我们来讨论如何使用大数据开发套件进行增量同步. 我们把需要同步的数据,根据数据写入后是否会发生变化,分为会变化的数据(人员表比如说,人员的状态会发生变化)和不会发生变化的数据(一般是日志数据).针对这两种场景,我们需要设计不同的同步策略.这里以把业务RDS数据库的数据同步到MaxCompute为例做一些说明,其他的数据源的道理是一样的.根据等幂性原则(也就是说一个任务,多次运行的结果是一样的,这样才能支持重跑调度.如果任务出现错误,也比较容易清理脏数据),我每次导入数据都是导入到一张单独的表