曙光SaaS级HPC运维神器正式上线

4月21日,在经历了6个月的试运营之后,中科曙光针对高性能计算集群推出的SaaS级专业化在线平台EasyOP(Easy Operation的简称)正式上线。

自去年11月EasyOP在全国高性能计算学术年会上亮相并宣布试运营之后,业界一直对曙光这款7*24小时在线运维平台的表现充满期待。而从EasyOP试运营的数据反馈信息来看,曙光EasyOP的表现称得上专业、全面,不负众望。

曙光EasyOP在线运维平台正式上线发布仪式

试运营数据评析:专业、全面

试运营期间,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。

从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。这种多线程任务下适于对HPC系统各子功能的全方位监控。

统计显示,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机,从侧面反映了曙光集群系统的高可靠性。

应时而生,让HPC运维变得简单

目前,在基于HPC的IT中心建设中,几乎所有公司只是就某个或几个离散的环节提供服务,难以做到全生命周期的运维服务。而第三方HPC服务商由于并不研发和生产HPC系统,对于HPC运行中产生问题的分析和解决效率与HPC专业出身的曙光相比还有不小的差距,不足以保障用户HPC高效运转。

EasyOP在线运维平台

针对此,曙光打造了拥有五大关键技术的EasyOP——监控数据实时远程采集、海量数据存储与展示、故障的分析与定位技术、大量数据统计与分析、移动终端的集成与推送,应时而生的曙光EasyOP平台使HPC在线运维变得简单。

HPC运维人员不仅可以随时了解HPC集群的运营情况和故障,还可通过网页或微信等在线咨询服务与线上专家进行一对一的交流。EasyOP还会将常见、有代表性的故障解决方案上传至知识库,以便于HPC运维人员积累。

来自中科院物理所的徐力方研究员表示:“HPC集群的运维此前一直是我们的艰巨任务,非常辛苦。接入EasyOP后,我们的运维压力大大降低了,运维成本和人力投入也都减少了,而且HPC集群的安全性和使用效率也得以提升。我们终于解放了。”

HPC,更懂HPC运维

“EasyOP是曙光结合‘互联网+’和HPC的产物,不仅帮助用户维护HPC系统,还有望利用用户的系统为其创造更多的价值。”曙光副总裁沙超群表示,“EasyOP通过提供运维、调优等服务,将各行各业的专家从HPC的运维和管理中解放出来。不止于此,曙光希望通过EasyOP构建一个资源交易平台,让闲时资源创造价值。”

“懂HPC,才能更懂HPC在线运维。”曙光总裁助理兼高性能计算产品事业部总经理曹振南感慨道,EasyOP可满足用户在立项支持、设备选型、产线交付、售中部署、应用环境调优、在线运维指导、售后技术支持等方面的持续需求。

“曙光推出EasyOP在线运维平台,引领了我国HPC行业向互联网+转型的方向,将促进行业整体服务水平的提升。”中国软件行业协会数学软件分会常务副秘书长姚继锋博士表示,“EasyOP可实现曙光与HPC用户的互联,对于打造‘HPC生态圈’具有重要意义。”

“从硬件提供商向综合服务提供商转型”是曙光公司近年来为应对不断变化的市场需求推出的重要战略,注重服务升级的EasyOP无疑将在其中扮演重要角色。同时,出色的HPC系统搭配专业的在线运维平台,也将更深入地践行曙光“数据中国”战略。

原文发布时间为:2016-04-22

时间: 2025-01-30 05:46:23

曙光SaaS级HPC运维神器正式上线的相关文章

2017年中华数据库与运维大会正式启动,这个可以约!

时隔一年,中华数据库与运维大会将于2017年06月03日在上海强势回归,届时来自全国各行各业的IT从业人员将欢聚于2017中华数据库与运维大会,探讨与交流数据库和运维的经验. 以下中华数据库与运维大会信息由活动家提供,篇幅所限,最新最全中华数据库与运维大会通知请点击下方链接了解: https://www.huodongjia.com/event-1685066679.html [会议概况] 自2009年以来,超过4000位技术总监.技术负责人.架构师.项目经理.运维总监.运维经理.DBA经理.D

300+篇运维、数据库等实战资料免费下载(文章+PDF+视频,持续更新)

2017年已过去一半,在此小编为大家精心整理了2017上半年热点事件解析.实战技术资料以及特别策划短视频系列,希望可以帮助大家更深入地回顾上半年的技术热点,并储备更充足的技术干粮继续2017的下一半. PART 1 峰会回顾资料 云栖大会 [上海云栖大会]2017云栖大会上海峰会资料合计(现场视频+PDF下载) [成都云栖大会]2017云栖大会成都峰会资料合计(现场视频+PDF下载) [南京云栖大会]2017云栖大会南京峰会资料合计(现场视频+PDF下载) 技术峰会 [运维/DevOps峰会]

高效运维:运维自动化之殇

前言 这些年来,大家都在谈运维自动化.但是否也会困惑于"只见树木.不见森林"?或者说,做了几年的运维自动化,但依然不能确定还有哪些工作没做?还有,怎样更优雅的实施运维自动化? 另外,运维自动化是万能的么?有哪些潜在问题?想了解大故障的独家剖析?且听本文分解~ 本文实际上包括两部分,关于运维自动化的一些观点(前3部分)和运维自动化的痛点(第4部分).如果已是运维自动化的专业人士,可以跳过前面内容,直接鉴赏第4部分--运维自动化之殇. 依惯例放上目录,请享用: 1. 什么是运维自动化? 2

某金融公司实践 | 从SRE&DevOps&PE谈如何颠覆应用运维认知

导读:[GO SRE!] 为数人云SRE系列活动专题,本文是北京站线下活动"当西方的SRE遇上东方的互联网"中某金融王超老师的分享. 他将从SRE,Devops, PE间的关系开始,介绍企业该如何构建适合自己的运维组织架构并管理团队,讲解持续交付.监控.容量规划等具体运维场景实操,从工程实践的角度解读大规模复杂化的业务场景下运维指导思想的落地. 王超 / 某金融企业高级PE 目前在某金融平台负责一个20人左右的应用运维团队(PE团队),也曾负责人人网PE团队.现阶段主要关注运维与业务的

运维经理的运维经验总结

域名 从买域名开始,要买多个域名,50个甚至100个.分为主域名和推广域名(给推广链接用的).要从godaddy上买域名,因为这里的域名稳定,不 会出现被攻击等事情.同时还要买域名保护,这样互联网用户ping这个域名就解析不到真实的服务器地址.同时域名解析的操作不要在godaddy上进行, 要把解析的操作放在cloudflare上或者dnspod上进行操作,也可以放到zndns上(这个dns可以做到一个域名解析多个IP地址,根据就近 原则,把最快的IP地址解析给用户.)也可以自己搭建dns服务器

运维经理的运维经验总结(值得收藏)

1. 域名 从买域名开始,要买多个域名,50个甚至100个.分为主域名和推广域名(给推广链接用的).要从godaddy上买域名,由于这里的域名稳固,不会出现被攻击等事变.同时还要买域名保护,如许互联网用户ping这个域名就剖析不到真实的办事器地点.同时域名解析的操纵不要在godaddy上举行,要把解析的操作放在cloudflare上大概dnspod上进行操作,也可以放到zndns上(这个dns可以做到一个域名解析多个IP地址,根据就近原则,把最快的IP地址解析给用户.)也可以自己搭建dns服务器

优云运维专家浅谈运维平台选型,提速DevOps运维

现如今DevOps已经深入人心,在这个大量数据中心建设加速的时代,运维部门都在高度强调自动化,而自动化的关键即DevOps.但是,大家在推进DevOps的过程中却发现其前途坎坷. 一种方案是建设自己的开发队伍从头开始,做CMDB.做监控.做自动化.做流程.做服务目录.做大屏展现,这种造轮子方法需要强大持续的研发投入,成本极高: 第二种方案则是寻找开源产品改造,以适合自己,如CMDBBuild.Zabbix.JBPM等,但是开源社区的产品,技术风格迥异,成熟度低,技术团队的素质要求高.踩的坑很多,

浅谈运维平台选型,提速DevOps运维

作者简介:蒋君伟,广通软件研发中心产品部总监,IT网管与运维领域的十年老兵,负责国内多个全国性的网络管理与运维管理系统产品研发,拥有丰富的网络管理.系统运维与产品研发经验.现从事广通新一代数据中心运维产品研发工作,主要负责产品线规划.核心技术研发.研发团队建设与运维咨询等工作.此外,个人还热衷于开源社区的技术推广与研究,喜欢Emacs.Lisp与Python,实现过开源.Net SNMP协议栈,目前主要研究去中心化的大规模软件集群技术. 现如今DevOps已经深入人心,在这个大量数据中心建设加速

蚂蚁金服资深技术专家石世群:支付宝亿级APP的性能稳定性优化及运维实践

8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践. 蚂蚁金服&阿里云在线金融技术峰会专题:https://yq.aliyun.com/activity/109 峰会统一报名链接:http://yq.aliyun.com/webinar/join/38 来自蚂蚁金服的资深技术专家石世群 ,将