使用云监控自定义监控实现GPU云服务器的GPU监控

本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。

1 背景
NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是对于使用者来说,每次手动查看很不方便,无法做到实时监控,而且也无法可视化,不直观。
本文将会介绍如何利用阿里云云监控服务提供的自定义监控功能来实现GPU云服务器的GPU监控和报警的可视化。
2 自定义监控和报警
阿里云云监控服务提供了自定义监控功能,用户可以利用它实现自定义的数据监控和报警。
我们利用自定义监控提供的API或者SDK,可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。
比如可以对GPU利用率、显存利用率、显存占用、功率、温度等关键信息进行监控和报警。
详见:创建自定义监控项和报警规则
3 监控数据上报
自定义监控提供的SDK支持Python和bash,通过编写脚本调用SDK的接口,可以实现相应监控数据的上报。
通过定时调度脚本,按创建监控项时定义的上报周期上报数据。Linux环境可以使用Crontab,Windows环境可以使用quartz.net。
详见:监控数据上报
4 GPU数据采集
NVDIA驱动安装时提供了NVIDIA Management Library (NVML),该库提供了采集GPU数据的接口,并基于NVML提供了nvidia-smi命令用于采集GPU相关数据。NVML提供了Perl 和Python语言的官方支持,考虑到自定义监控上报SDK支持Python,我们可以下载NVML的Python bindings,编写Python脚本采集GPU数据。
NVML的Python bindings可以从以下链接下载:https://pypi.python.org/pypi/nvidia-ml-py/

5 示例
5.1 创建自定义监控项
在云监控控制台创建自定义监控项,如下图:

5.2 查看监控项数据
在云监控控制台查看监控项,如下图:
某实例GPU 0的GPU利用率(单位:Persent):

某实例GPU 0的显存利用率(单位:Persent):

某实例GPU 0的内存占用量(单位:Megabytes):

某实例GPU 1的功率(单位:Watt):

某实例GPU 1 的温度(单位:摄氏度):

5.3 设置报警规则
在温度监控项上点击报警管理:

设置温度报警规则:

设置通知对象:

完成设置:

时间: 2024-11-10 07:47:55

使用云监控自定义监控实现GPU云服务器的GPU监控的相关文章

使用云监控自定义监控实现GPU云服务器的GPU监控和报警

1 背景NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是对于使用者来说,每次手动查看很不方便,无法做到实时监控,而且也无法可视化,不直观.本文将会介绍如何利用阿里云云监控服务提供的自定义监控功能来实现GPU云服务器的GPU监控和报警的可视化.2 自定义监控和报警阿里云云监控服务提供了自定义监控功能,用户可以利用它实现自定义的数据监控和报警.我们利用自定义监控提供的API或者SDK,可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,

Docker监控技术原理和阿里云容器监控服务实践

在组织的云栖计算之旅第2期-Docker在云平台上的最佳实践专场中,阿里云晨末做了题为Docker监控原理和阿里云容器监控服务实践的分享.在本次分享中,他谈到了监控的重要性并且针对于Docker容器的监控技术进行了精彩分享.   本次分享的内容看起来非常高大上,但其实原理却非常简单.本次主要将分享两个部分,一部分将会分享Docker相关的监控原理,另外一部分就是介绍一下阿里云容器服务.在国内而言,阿里云的Docker产品是比较先进的,因为我们进行了大量的用户调研,所以很多用户想将业务迁移到Doc

阿里云如何查看云服务器实例的监控信息

查看云服务器实例的监控信息 描述 分页查询本用户的所有云服务器相关的监控信息. 只能查询到状态非 Deleted 或者非刚刚创建完成尚处于 Stopped 状态的云服务器的监控信息. 可返回的监控内容包括:云服务器的 CPU 使用率.云服务器分配到的内存数.云服务器接收到的数据流量.云服务器发送的数据流量.云服务器网络流量.云服务器平均带宽.有可能返回的监控内容中会缺少部分内部,这可能是由于系统没有获得到相应的信息,比如当时实例处于 Stopped 状态. 一次最大只容许返回 400 条监控数据

阿里云发布国内首个可视化GPU云服务

本文讲的是阿里云发布国内首个可视化GPU云服务[IT168 资讯]2月24日,阿里云全新GPU计算实例GA1正式发布.这是一个集GPU.CPU.存储.网络于一体的计算实例.基于最新的AMD服务器图形处理卡能大大提升图形.图像渲染领域的计算效率. 这是国内首款可视化GPU计算实例,也是全球首个基于AMD GPU的公共云计算实例. GA1强大的图形处理和浮点数运算能力让可视化计算处理与获得洞见成为可能.据了解,该实例能够为用户提供单实例最大总计8192个并行处理核心.32GB的GPU显存.15 TF

LBS云地图自定义开发api

问题描述 LBS云地图自定义开发api 谁开发过地图,且比较深入,留个线上联系方式讨论问题.想要LBS云地图的效果却有不同地方

GPU云主机永久降价50% 美团云全面开放AI计算资源

本文讲的是 :  GPU云主机永久降价50% 美团云全面开放AI计算资源  ,   9月6日,美团云宣布GPU云主机计费永久性下调50%,并将全面开放人工智能计算资源,与各行各业共享成熟且丰富的AI计算能力.此次调价的产品不仅包括此前的M60云主机,还包括最新上线的高端AI服务器P40云主机.调价后,美团云GPU相关产品将达到行业最低价的3-8折,击穿行业价格底线. 高品质低价格 让智能计算普惠化 从AlphaGo战胜李世石到我国近日发布的<新一代人工智能发展规划>,人工智能已经步入高速发展阶

更接近底层的云服务——自定义服务器

本文讲的是更接近底层的云服务--自定义服务器,[IT168 资讯]毫无疑问,基础设施架构对于应用人员来说是复杂的.因此云计算的一个重要目的就是把企业从对基础设施架构的庞杂管理中解放出来,让用户不需要知道自己的服务运行在什么样的复杂环境里,只需要去应用就行了.日前,位于美国加州的Raging Wire公司推出了新的服务--StrataScale服务(也叫IronScale)能为服务器提供存储,安全和网络资源的自由组合.     尽管StrataScale没有用大家熟知的云计算概念来定义其服务内容,

【产品活动】阿里云GPU云服务器年付5折!阿里云异构计算助推行业发展!

活动规则:地域:国内所有地域规则:实例部分5折,不受台数限制活动购买年限:1年 / 2年 (实例5折,其他磁盘+网络折扣同目前线上) 立即购买 阿里云GPU云服务器全力支持AI生态发展,进一步普惠开发者红利,本周将会推出针对异构计算GPU实例GN5年付5折的优惠活动,希望能够打造良好的AI生态环境,帮助更多的人工智能企业以及项目顺利上云.随着深度学习对人工智能的巨大推动,深度学习所构建的多层神经网络模型的参数空间已从百万级上升到百亿级,这对计算能力提出了新的挑战.相比CPU,GPU更适合深度学习

阿里云GPU云服务器TensorFlow单机多卡训练性能实践

1 背景 2015年11月9日,Google发布深度学习框架TensorFlow.Google表示,TensorFlow在设计上尤其针对克服其第一代深度学习框架DistBelief 的短板,灵活.更通用.易使用.更快,而且完全开源.在短短的一年时间内,在GitHub上,TensorFlow就成为了最流行的深度学习项目. 本文将介绍TensorFlow在阿里云GPU云服务器上的单机性能表现,并对单机多卡的训练性能调优给出了一些建议. 2 使用卷积神经网络进行图像分类 卷积神经网络(Convolut