大数据平台任务调度监控系统

  记录一下正在开发的一个任务调度系统,目的是为了解决大数据平台下的任务管理、调度及监控。

  定时触发和依赖触发。

  系统模块:

  JobManager:调度系统的Master,提供RPC服务,接收并处理JobClient/Web提交的所有操作;与元数据通讯,维护Job元数据;负责任务的统一配置维护、触发、调度、监控;

  JobMonitor: 监控正在运行的Job状态、监控任务池、监控等待运行的Job;

  JobWorker:调度系统的Slave,从任务池中获取Job、负责启动并收集Job的执行状态,维护至元数据;使用Jetty提供任务运行日志访问服务。

  JobClient/Web:调度系统客户端类,前端界面提供给用户,用作任务的配置、管理、监控等;

  任务元数据:目前使用Mysql,保存Job的配置、依赖关系、运行历史、资源配置、告警配置等;使用Mysql很不靠谱,任务多的时候会成瓶颈,必须迁移至">分布式存储,Zookeeper也行;

  系统特性:

  分布式:容量和负载能力(JobWorker)可线性扩充;

  高可用性:拥有主备Master,一旦主Master异常,备Master会接替主Master提供服务;

  高容错性:Master重新启动后,会将之前未完成的任务重新调度运行;

  完善易用的Web用户界面:用于用户配置、提交、查询、监控任务及任务的依赖关系;

  支持任意类型的任务:除了Hadoop生态圈的MapReduce、Hive、Pig等,还支持其他任何语言开发的任务,如Java、Shell、Python、Perl、Spark等;

  完整的日志记录:收集并记录任务运行过程中产生的标准输出和标准错误,提供Http访问,用户可通过访问任务对应的日志Url来方便的访问任务运行日志;

  任务之间的灵活依赖:可将任意一个任务作为自己的父任务进行依赖触发;

  灵活多样的告警规则:除了失败告警,也支持任务超时未完成、任务超时未开始等告警规则;

  难点:

  依赖触发时候,业务日期以及子孙任务的判断,特别是手工运行任务,并且运行所有子孙任务的场景;

  元数据的设计和存储:刚开始想借鉴MapReduce的架构,元数据只做持久化,其他全通过RPC,在内存中进行,但复杂度太高。

  任务的恢复:服务异常重启之后,想将之前所有的任务恢复到原来的状态。

  JobWorker之间的共享存储:暂时将任务程序放在HDFS上,JobWorker在运行任务时候从HDFS获取到本地。

  任务超时告警:当一个任务超过某一时间还没开始或者成功结束时触发告警,此类告警放到Quartz中去触发。

  JobWorker可以运行在任意机器上,只需要能访问元数据,一些不好迁移的业务程序可以将JobWorker运行在其机器上,添加任务时候需指定资源,这样,在分配任务的时候只会分配到指定的资源上去。

  不同的业务需要用不同的用户去执行:将业务类型和用户名绑定。

  KILL任务:对于Hadoop和Hive任务,不能仅仅销毁执行进程,需要从日志中解析Hadoop jobid,执行hadoop kill命令。

  

  

  

原文链接:http://superlxw1234.iteye.com/blog/2147630

时间: 2024-09-13 23:28:40

大数据平台任务调度监控系统的相关文章

网络版权保护形势严峻,大数据平台监控助力维权

"网络版权保护形势依然严峻.不断出现的网络新技术和新应用,给互联网版权保护不断提出了新课题,往往会造成大量未经授权使用作品的侵权盗版的出现."9月15日,在由世界知识产权组织和国家版权局联合主办的国际版权论坛上,中国国家版权局副局长阎晓宏在论坛开幕式上表示. 来自麦肯锡的最新资料显示,去年我国互联网经济比重占总GDP的4.4%,超越美.法.德等国达到全球领先的水平,到2025年或将贡献GDP总量的7%至22%.然而过去几年,国内互联网公司饱受侵权盗版危害,造成了巨大的经济损失. 一方面

支撑上万并发毫秒级事务响应!银行大型机负载下移至GemFire+HBase大数据平台的创新(一)

MainFrame大型机行业应用介绍 大型机(mainframe)这个词,最初是指装在非常大的带框铁盒子里的大型计算机系统,以用来同小一些的迷你机和微型机有所区别.虽然这个词已经通过不同方式被使用了很多年,大多数时候它却是指system/360 开始的一系列的IBM计算机.这个词也可以用来指由其他厂商,如Amdahl, Hitachi Data Systems (HDS) 制造的兼容的系统. 近年来,随着国内银行.保险.证券和海关等企事业的处理信息需求量猛增,对处理速度的要求越来越高,要求响应时

重庆移动大数据平台 实现流量计费可视化

日前,重庆移动在大数据平台上自主设计开发的流量计费可视化系统正式上线,将为流量计费质量监控.分析处理提供有效支撑. 据了解,该系统可实时监控流量计费并将结果展示到大数据天眼系统,一旦某个时间段计费出现异常,天眼系统的数据趋势图就会立即出现异常波动,展示异常告警.同时,该系统可将流量话单采集到大数据平台后,再计算出每个用户当天的在线计费率,并将每个占比区间的用户数展示在大数据天眼系统中,监控在线计费质量. 该系统上线后,重庆移动每十分钟.每小时.每天.每个月的流量计费话单数据量均能实现实时可视化展

中国电信2016年企业级大数据平台集采结果:两企业中标

中国电信日前发布公告公布2016年企业级大数据平台基础能力系统新建工程和数据安全管理系统新建工程的集采结果. 公告指出,深圳天源迪科信息技术股份有限公司中标中国电信2016年企业级大数据平台基础能力系统:上海理想信息产业(集团)有限公司中标中国电信2016年企业级大数据平台数据安全管理系统. 据了解,中国电信所有的大数据都是在云平台和云设施之上搭建的,如今其大数据平台建设从原来的5个省现在扩展到31个省,数据的种类从开始的几类主要的数据扩展到十几类,实效性是原来一周到现在小时的延时. 中国电信云

大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定

邮储银行大数据平台一期上线 接入24个业务系统数据

日前,中国邮政储蓄银行大数据平台一期工程成功上线,这意味着邮储银行在推进大数据技术应用方面取得了重大进展. 据报道,邮储银行大数据平台工程于2013年10月通过方案评审,2014年7月完成立项,2015年全面启动,历经架构研究.应用探索.技术攻关.工程实施等阶段,截至目前,已完成3个hadoop集群93台x86服务器的部署和上线,完成176个节点数据仓库的建设和投产,总数据容量2.27pb,达到国内金融业的领先水平. 据悉,该平台已接入行内24个重要业务系统的数据,同时积极引入行外非结构化数据,

卓思数据拟募资153.06万元 用于大数据平台系统开发

4月7日,卓思数据发布公告称,公司拟以2.5元/股的价格发行不超过61.22万股,募集资金153.06万元. 公告显示,本次股票发行主要面对2位个人投资者.其中,核心员工李航先生.董事及高级管理人员黄文杰先生将分别出资76.53万元认购30.61万股. 本次募集资金将全部用于于子公司大数据平台系统开发.公司表示,本次募集资金有利于应对市场竞争并加快市场开拓. 读懂新三板研究中心数据显示,卓思数据于2016年8月11日挂牌新三板,主营业务是市场研究业务.数据服务业务.2016年上半年,营业收入为9

大数据平台安全建设方案分享

随着国家提出大数据促进经济社会转型发展的战略思路,大数据平台建设目前已经是政务信息化建设中的焦点内容,各省级政府依托强大的信息化体系率先做出尝试.大数据平台业务系统搭建之初,作为整个平台稳定.持续运行的基础,安全建设方案会是整个平台项目中重要的一环. 大数据平台整体安全建设,从数据采集到数据资产的梳理,再到平台的访问安全管控和数据存储安全,以及数据共享分发过程中的版权保护,整个安全方案如何形成数据访问和使用过程的闭环,并且能够实现安全策略的统一下发和协同配合,是摆在平台建设方面前的棘手问题,本文

阿里十年经验输出,大数据平台“数加”的前世今生

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台"数加",该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据应用等数据生产全链条. 数加平台由大数据计算服务(MaxCompute).分析型数据库(Analytic DB).流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快.成本更低.计算引擎之上,"数加"提供了丰