大数据开发套件—调度运维常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 时遇到的常见问题,供大家参考~

Q. 如果之前提交的任务修改后再次提交,是否会影响当天的任务调度?
A. 根据修改的内容来确定是否会影响:如果修改的只是 sql 语句,则不会影
响;如果修改自定义参数和调度配置以后重新提交的,都会影响当天的任
务调度 。

Q. 创建一个新的工作流任务,如果保存后没有提交任务,是否可以进行测试?
A. 仅保存后没有提交,sql 任务可以在本地运行,但不可以提交测试 。

Q. 项目管理下项目配置中的启动调度周期是什么意思?如图所示:


A. 若不启用调度周期,则 周期调度不可用, 也就不会生成新的调度实例 。

Q. 图片中的任务状态实际是暂停的,为什么统计的是失败?


A. 大数据开发套件中的暂停状态,就是失败,所以会放在失败里统计。此处建议如果用于紧急处理任务,减少对下游数据的影响,可以将其置为暂停状态;如果是不再使用的任务,建议删除 。

Q. 在大数据开发套件—运维中心中查看任务,显示全部失败?


A. 因为任务中配置了上游依赖,上游任务跑失败了,导致下游任务无法继续。

Q. 在大数据开发套件中进行补数据任务时,是否需要设置并发?
A. 补数据时不需要设置并发。

Q. 工作流任务设置为周期性调度,并且是自依赖的,有时上个周期的任务失败会导致下游任务都不能执行了。请问怎样手动启动下游任务?
A. 进入 运维中心-任务运维 页面,找到失败的任务,右击任务名称,需要重跑的任务就重跑,不需要重跑就直接选择置成功,并恢复调度,如下图所示:

Q. 若未成功的上游任务有很多,一个一个进行手动置成功比较麻烦,请问是否有办法先切断依赖,然后从某个时间点再运行吗?
A. 可以重新对某个时间短的数据进行补数据。

Q. 补某个时间段的数据没有问题,但是原来的任务由于上游出错,所有下游任务都不能运行了,应该怎么处理 ?
A. 需要先将这个任务暂停,提交,然后明天取消已暂停的任务,重新提交,后天就可以正常了。此处需要过一天后才能正常运行,未正常运行的,暂时通过补数据来完成。

时间: 2024-10-30 14:20:17

大数据开发套件—调度运维常见问题的相关文章

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

数加·大数据开发套件目前支持任务调度周期有五种:天.周.月.分钟.小时.本文将介绍这五种周期的配置和调度形态. 调度规则--调度任务是否能运行起来要满足的条件: 上游任务实例是否都运行成功.若所有上游任务实例都运行成功则触发任务进入等待时间状态. 任务实例定时时间是否已经到.任务实例进入等待时间状态后会check本身定时时间是否到,如果时间到了则进入等待资源状态: 当前调度资源是否充足.任务实例进入等待资源状态后,check当前本项目调度资源是否充足,若充足则可以运行起来. 天调度任务 天调度任

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见 天任务依赖小时任务. 小时任务依赖分钟任务 .那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践. 再此之前,我们先明确几个概念: 业务日期:业务数据产生的日期,这里指完整一天的业务数据.在大数据开发套件里任务每天能处理的最近的完整一天业务数据是昨天的数据,所以业务日期=日常调度日期-1天. 依赖关系:依赖关系是描述两个或多个节点/工作流之间的语义连接关系

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

大数据开发套件-数据集成-云mongo跨区域如何同步到Maxcompute

在大数据开发套件中是可以实现mongo同步到Maxcompute. 数据集成文档:https://help.aliyun.com/document_detail/47677.html?spm=5176.7750354.6.599.jGn50I后端是通过华东1区的调度资源进行数据的调度传输.但是如果阿里云mongo不在华东1在其他区域,使用默认资源组就不能正常同步了.那么就需要用户通过自己添加调度机器进行同步.1,准备一台调度服务器,要求必须和云mongo相同网络类型相同的区域.官方文档:http

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

大数据开发套件中数据同步-日志报错回滚信息的一些问题总结

在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从MaxCompute(原名ODPS)到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题. 那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败.数据写入失败可能是以下原因导致回滚.1,脏数据(数据值超过数据类

基于大数据开发套件的增量同步策略

今天我们来讨论如何使用大数据开发套件进行增量同步. 我们把需要同步的数据,根据数据写入后是否会发生变化,分为会变化的数据(人员表比如说,人员的状态会发生变化)和不会发生变化的数据(一般是日志数据).针对这两种场景,我们需要设计不同的同步策略.这里以把业务RDS数据库的数据同步到MaxCompute为例做一些说明,其他的数据源的道理是一样的.根据等幂性原则(也就是说一个任务,多次运行的结果是一样的,这样才能支持重跑调度.如果任务出现错误,也比较容易清理脏数据),我每次导入数据都是导入到一张单独的表

云享团——基于大数据开发套件的增量同步策略

免费开通大数据服务:https://www.aliyun.com/product/odps 转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿. 我们把需要同步的数据,根据数据写入后是否会发生变化分为:会变化的数据(人员表比如说,人员的状态会发生变化)和不会发生变化的数据(一般是

大数据开发—常见问题(3)

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 MaxCompute和 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 在大数据开发套件-运维中心中查看任务,显示全部失败? A: 因为任务中配置了上游依赖,上游任务跑失败了,导致下游任务无法继续. Q: ADS 支持 IF.IFNULL 关键字吗?A: 不支持,您可以用 case when .coalesce 代替,另外,若是含 group by的 SQL 语句中必须有聚合函数来匹配 group by