使用 Apache Mesos 打造分布式资源调度系统

Netflix使用Apache Mesos运行了一系列批处理、流式处理,以及服务类型的工作负载。两年多来,我们创建了层出不穷的用例,例如实时异常检测、批处理作业的训练和模型构建、机器学习编排,以及基于Node.js的微服务。最近发布的Apache Mesos 1.0意味着这项技术已经成熟,相比我们首次使用该服务时已经有了巨大的改进。

我们最初使用Apache Mesos的动力主要在于该技术能够将来自同一个EC2实例的资源更为细化地分配给不同规模的任务。如果不使用Mesos或其他类似的资源管理器,将无法为数量日益增加的实例进行更细化的分配,导致无法获得令人满意的利用率,或只能自行开发类似于Mesos的技术,至少也要开发出其中的部分功能。

越来越多的流式处理和批处理作业开始使用容器,这也推动了基于Mesos的资源调度技术的使用。最近开发者已经可以从基于Docker的容器通过Mesos集群获得一系列服务类型的工作负载。本文将概括介绍Netflix工程团队使用Apache Mesos打造的一些项目。我们将介绍该技术所满足的不同用例,以及每个用例是如何高效使用这种技术的。有关每个项目的进一步细节请参阅下文给出的博文链接。

使用Apache Mesos打造云端原生调度机制

为了从不同EC2实例为任务分配资源,我们需要一种能对可用资源进行调度,并能在分布式EC2实例上启动和监控任务的资源管理器。Apache Mesos可将要使用集群的“框架”的资源分配,与框架任务的资源调度区分处理。当Mesos确定要将多少资源分配给框架后,将由框架的调度器决定在什么时候将哪些资源分配给哪个任务。这样的调度器是一种相当简单的API,因此也能更专注于调度逻辑,并对分布式系统中不可避免出现的故障做出回应。借此用户可以针对不同用例编写不同调度器,不像Mesos那样为所有用例使用一个统一的调度器。下图来自Mesos文档,展示了“框架1”收到“代理1”的指令启动两个任务的过程。

一段时间来,Mesos社区已经出现了多种针对不同用例的调度器,并为用户提供了相应的API。

Netflix在AWS EC2弹性云中运行了多个微服务。在原生云环境中运维Mesos集群要求我们必须确保除了与数据中心内部运维类似的任务外,调度器还能同时处理另外两方面内容:运行任务的代理寿命更短暂,以及Mesos代理集群具备根据需求变化自动伸缩的能力。另外我们所处理的用例需要实现一种比First fit类型的分配更先进的资源调度机制。例如按照CPU、内存,以及网络带宽的用量将多个任务装箱(Bin packing)到不同代理,借此实现资源碎片最小化。装箱还可以帮助我们释放尽可能多的代理,在不影响运行中任务的前提下终止空闲代理,让代理集群的扩张速度放缓。

为找出现有调度器在此类能力方面的缺失,去年我们开发了一种名为Fenzo的调度库。Fenzo可以根据需求自动缩放代理集群,并根据由健康标准(Fitness criteria)和约束组成的多种调度目标为任务分配资源。这些健康标准和约束可通过插件进行扩展,并具备少量内建的通用实现,例如为了实现高可用跨越EC2可用区对作业进行任务装箱和分散。JVM上运行的任何Mesos框架都可使用Fenzo Java库。

Netflix对Mesos的运用

目前我们通过Apache Mesos集群运行了三个项目。

Mantis

Mantis是一种以原生云服务方式运行的反应式流处理平台,主要侧重于运维数据流的处理。Mantis包含多种不同用例,例如实时仪表盘、预警、异常检测、衡量指标生成,以及流数据的即席交互式探索。我们使用Mantis主要是为了简化团队成员访问实时事件和以此为基础构建的计费应用程序的过程。目前Mantis的事件流处理能力已高达每秒800万条事件,可不间断运行数百个流处理作业。我们有一个此类作业主要侧重于视频内容的处理,可以针对内容提供细化的洞察,例如巴西地区iPad上播放纸牌屋第四季第一集时遇到了问题。这一功能需要不间断追踪数百万不同的数据排列组合方式。

Mantis平台包含一个主(Master)集群和一个代理(Agent)集群。用户可以将流处理应用程序以作业的形式提交,并在代理集群内一个或多个工作进程(Worker)上运行。主集群会使用Apache Mesos中包含的Fenzo调度库优化作业工作进程的资源分配。这种分配操作的目标之一在于将需要持续不间断运行的流处理作业与只需要短时间运行的交互式作业分布到不同代理上,这样当短时间运行的作业运行完毕后,即可收缩代理集群的规模。下图展示了Mantis的体系结构。来自不同作业的工作进程可以通过基于Cgroups的资源隔离机制在同一个代理上运行。

Titus

Titus是一种Docker容器作业管理和执行平台。最初Titus主要用于实现包含算法训练(类似于视频推荐、A/B测试单元体分析等任务)的批处理作业,以及需要每小时运行一次的即席报表和分析作业。最近为了提供一致的本地开发体验以及实现更细化的资源管理,Titus开始为服务类型的作业(Netflix微服务)提供支持。Titus首个服务类型的用途是使用服务器端的NodeJS进行API的重构。

上述Titus体系结构示意图展示了使用Fenzo从Mesos代理分配资源的主节点。Titus可与Netflix微服务和AWS生态系统实现紧密集成,包括与服务发现、基于软件的负载平衡、监控,以及我们的CI/CD管线、Spinnaker等技术进行集成。在Mesos中编写自定义执行器的能力使得我们能够轻松地对容器运行时进行优化,使其与生态系统的其他部分更为匹配。

Meson

Meson是一种通用的工作流编排和调度框架,主要可用于管理机器学习管线。

Meson主要适用于对CPU、内存,以及磁盘空间等资源有着不同要求的作业所组成的异构环境。它可以支持通过一个共享集群运行Spark作业和其他批处理作业。在基于Cgroups的隔离机制帮助下,代理上的不同任务将使用相互隔离的资源运行。Meson的调度器会根据图表(Graph)评估任务的就绪情况,并通过Mesos提供的资源启动已经就绪的任务。失败处理措施包括重新启动失败的任务,以及自动终止被确定为已经出错的任务。

上述示意图展示了Meson的体系结构。Meson团队目前正在着手使用Fenzo调度库增强其调度能力。

Apache Mesos的继续完善

在我们持续完善Mantis、Titus和Meson项目的过程中,Apache Mesos提供了稳定、可靠、可伸缩的资源管理平台。我们通过开源的Fenzo以及在MesosCon大会上分享创意等方式参与到了Mesos的社区贡献中。您可以在即将举办的MesosCon Europe 2016大会上与我们交流,或查看我们之前参与2014、2015年,以及今年上半年活动的总结(学到的经验和Meson)。

对于这些项目,我们的未来计划包括增加SLA(服务级别协议,例如为服务和批处理形式的作业提供不同的容量担保),对代理和容器的安全加固,改善运维效率和能见度,以及对更广泛用例的支持。为了取得更长足的进展,目前我们正在围绕Mesos、Fenzo以及我们的框架开展一些非常激动人心的项目。

文章转载自 开源中国社区[http://www.oschina.net]

时间: 2025-01-30 00:47:31

使用 Apache Mesos 打造分布式资源调度系统的相关文章

Apache Kafka是分布式发布-订阅消息系统

转自: http://www.infoq.com/cn/articles/apache-kafka?utm_source=infoq&utm_medium=popular_links_homepage 简介 Apache Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kafka是一种快速.可扩展的.设计内在就是分布式的,分区的和可复制的提交日志服务. Apache Kafka与传统消息系统相比,有以下不同: 它被设计为一个分布式系统,易

跨地域分布式云计算资源调度系统及实证

跨地域分布式云计算资源调度系统及实证 林跃晓 首先对跨地域分布式资源调度在电网的应用进行必要性分析,提出实际IT环境中的问题和挑战,并分析目前市场上的云计算产品和解决方案的不足:其次结合电网的实际IT环境,对跨地域分布式资源调度的资源模型和调度策略进行研究,提出适用于电网的方案,并给出系统的技术架构和部署模式.最后,在实际生产环境中进行原型搭建,并结合电网的应用对该系统进行实证. 更多还原 关键词-云计算: 跨地域: 分布式IT资源: 资源调度   temp_12110311261334.rar

Apache Mesos和数据中心操作系统的崛起

本文讲的是Apache Mesos和数据中心操作系统的崛起,[编者的话]本文是Mesosphere公司的工程师对他们公司产品DCOS的介绍,也顺带介绍了Mesos的架构和功能以及Mesos的init框架Marathon和Cron框架Chronos. 罗杰伊尼亚齐奥是Mesosphere的基础设施自动化工程师和"Mesos实践"的作者. 感谢曼宁出版的团队的慷慨,SysAdvent读者在在https://manning.com/books/mesos-in-action使用代码"

谈谈Apache Mesos和Mesosphere DCOS:历史、架构、发展和应用

本文讲的是谈谈Apache Mesos和Mesosphere DCOS:历史.架构.发展和应用,[编者的话]Mesos 是一个很年轻的开源项目,它的理念是怎样的? 它的整体架构以及服务对象又是什么? 基于此的 Mesosphere DCOS 又是如何定位的? 本文作者就这些话题展开了探讨. Mesos 发展史 Mesos 是一个早在2009年由 Benjamin Hindman.Andy Konwinski.Matei Zaharia.Ali Ghodsi.Anthony D. Joseph.R

Apache Mesos 和数据中心操作系统的崛起

Apache Mesos 和数据中心操作系统的崛起 容器和应用程序编排是热门话题,因为组织和工程团队试图尽可能快地部署应用程序和基础设施的更改,同时提高数据中心的整体效率.当你读到容器的文章时,提到Apache Mesos(论文)通常都不会太遥远.你可能想知道Mesos是什么,以及如何将它用于管理大规模应用程序. 在这篇文章中,我将提供Mesos的介绍,总结一些Linux内核和Mesos之间的比较,以帮助你了解它是如何工作的.我将覆盖两个开源项目,这两个项目让工程团队能快速,轻松地部署在集群上的

伏羲—阿里云分布式调度系统

今天,大数据已经从概念发展到在很多行业落地生根.广泛用在电商.金融.企业等行业,帮助行业分析数据.挖掘数据的价值.即使在传统的医疗.安全.交通等领域也越来越多的应用大数据的技术.数据.价值二者之间的联系是计算,计算是大数据中最核心的部分.大数据计算就是将原来一台台的服务器通过网络连接起来成为一个整体,对外提供体验一致的计算功能,即分布式计算. 点击查看回顾视频 伏羲系统架构 分布式调度系统需要解决两个问题: 任务调度:如何将海量数据分片,并在几千上万台机器上并行处理,最终汇聚成用户需要的结果?当

Docker、Kubernetes、Apache Mesos 之争 | 一个与传说不同的故事

本文讲的是Docker.Kubernetes.Apache Mesos 之争 | 一个与传说不同的故事[编者的话]有无数的文章.讨论和社交网络上的交流在比较 Docker.Kubernetes 和 Mesos. [3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站]本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成与持续交付(CI/CD)概览:持续集成系统介绍:客户端与服务端的 CI/CD 实践:开发流程中引入 CI.CD:Gitlab 和 CI.CD 工具:G

解析阿里云分布式调度系统伏羲

云计算并不是无中生有的概念,它是将普通的单台PC的计算能力通过分布式调度的软件连接起来.其最核心的问题是如何把100台.1千台.1万台机器高效的组织起来,灵活的进行任务调度和管理,从而使得可以像使用台式机一样使用云计算.在云计算中,最核心的模块是分布式调度,它好比于云计算的中央处理器.目前,业界已存在多种分布式调度实现方案,如伏羲.Hadoop MR.YARN.Mesos等系统. 阿里云伏羲 伏羲系统是在前人的基础上进行了一系列的改造,首先与YARN和Mesos系统类似,将资源的调度和任务调度分

使用 Grafana、collectd 和 InfluxDB 打造现代监控系统

使用 Grafana.collectd 和 InfluxDB 打造现代监控系统 想打造 New Relic 那样漂亮的实时监控系统我们只需要 InfluxDB/collectd/Grafana 这三个工具,这三个工具的关系是这样的: 采集数据(collectd)-> 存储数据(InfluxDB) -> 显示数据(Grafana). InfluxDB 是 Go 语言开发的一个开源分布式时序数据库,非常适合存储指标.事件.分析等数据,看版本号(v0.8.8)就知道这个项目还很年轻: collect