ZD至顶网服务器频道 04月22日 新闻消息(文/于泽):“锄禾日当午,不如运维苦”,一句话就真实反映出了IT运维人员的真实处境。7x24小时的操心、劳碌,只有经历过的人才深有体会。在日前召开的中科曙光EasyOP(Easy Operation的简称)在线运维平台正式上线仪式上,来自中国科学院物理研究所的徐力方研究员表达了自己的感慨,“半夜三更穿着裤衩背心就往机房跑,虽然投入了大量的精力,但仍时刻提心吊胆。”
EasyOP上线仪式
其实,这不仅是他一个人面对的问题,而是广大中小型客户所面临的共同难题。相比大型企业,他们没有那么多的财力、物力、人力,但却同样需要IT来帮助他们实现业务上的提升,于是随着技术的进步,有了更多更适合他们的方式,比如云计算在某种意义上就具备这样的属性,而中科曙光发布的EasyOP同样有这层涵义。
简单来说,EasyOP是软件+服务,其中软件就类似于现在的系统管理软件,能够实现对系统组件、业务情况的监控、管理,要说特别其实并没有太多特殊之处。重中之重在于服务,由中科曙光的一支专家团队提供的7x24小时支持团队,出现故障由厂商来解决,这将从根本上避免出现半夜三更你还得跑机房的现象出现。
特别指出的是,EasyOP并不是面向通用IT系统的一个在线运维平台,而是针对高性能计算这一细分领域。至于为什么开发这么一个平台,与曙光一直以来的专注方向密不可分。众所周知,曙光专注HPC(高性能计算)领域20余年,光HPC系统就卖出去1万多套。用曙光公司副总裁沙超群的话来说,他们一直以来都在思考除了系统,还能为客户提供什么样的服务。在这样的发展思路指导下,也就有了EasyOP。
从产品功能而言,EasyOP能够实现监控数据的实时远程采集、海量数据的存储与展示、故障的分析与定位技术、大量数据的统计与分析、移动终端的集成与推送(微信、短信)。这些可能听着比较抽象,但在与徐力方的交流中,我们得到的反馈是完全解放。在接入EasyOP后,他不再操心这些,一切都在掌控之中。
话说EasyOP早在去年的HPC China 2015(2015全国高性能计算学术年会)上就亮过相,从那时候至今的半年时间内,曙光也一直在积极地进行测试,包括中国科学院物理研究所在内的20家客户都是它的首批用户。
从实际情况来看,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。
根据测试结果,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机。
应该说EasyOP的正式发布是经历了严格测试的,而且还有一个好消息是EasyOP一年内免费试用,至于1年后是否收费、怎么收费尽管现在还没确定,但是曙光高性能产品事业部总经理曹振南在接受采访时表示,在基础设施运维服务这一层,他们目前考虑的还是倾向于免费,也就是说未来EasyOP很可能也是免费的。
原文发布时间为:2016-04-22
本文作者:于泽