系统宕机:设备和应用不再是大问题,人为错误是关键

如果问系统管理员什么是最令其担心的问题,十有八九会说是系统宕机,这一点对业务中断忍受度极低的金融行业来说尤为如此。随着数字化转型的进一步推进,越来越多的企业业务依赖IT技术,IT系统宕机极易导致企业的瘫痪,造成的影响和损失不可估计。

对于IT团队来说,即便尽全力也几乎不能保证系统100%正常运行,只能通过规划冗余以尽可能地保持更多的正常运行时间。

实际上与几年前相比,现在的软件更具弹性,无论是商业软件还是开源软件出问题的几率都比较小,出了问题管理员也可以通过使用虚拟机、配置和编排以快速恢复正常运行。

系统宕机最常见原因不再是设备或应用程序故障,而是人为因素,即系统管理员的错误操作。随着企业更多地部署虚拟化及采用公共平台,现代企业IT变得越发复杂,这导致了人为错误的增加。且很多管理员仍在使用命令行界面,和系统情况变更之间没有任何把关。这样即便管理员操作正确,在复杂环境中也可能造成极大影响,诸如其指令可以解决当下的问题,但调用资源可能会与数据访问产生冲突而导致其他工作负载问题。

在此种情形下,采用自动化以减少人为错误显得弥足重要。比如创建可运行脚本库,可重复授权使用这些脚本;此外,使用编排系统不仅可以调配脚本,也可以调配修补程序,对于部署混合云的企业可以采用编排工具以帮助自动化和管理。

除人为错误外,网络攻击也会导致非计划性系统宕机。DDoS攻击能拖垮服务、恶意软件会导致数据损坏和系统停机,而臭名昭著的勒索软件则更为棘手,一旦中招会加密企业数据。对此,企业可采取安全供应商提供的安全产品和保护服务来提高系统安全性,从而避免系统宕机。

本文转自d1net(转载)

时间: 2024-07-29 05:15:12

系统宕机:设备和应用不再是大问题,人为错误是关键的相关文章

网络管理员应该如何应对系统宕机?

在去年的世界杯比赛期间,Nate Silver和他在地窖里的通灵巫师也犯了错误--他是如何做到如此精准的预测呢?确实错了.他们完全预测错了德国与巴西的比赛结果.正如Silver所描述的,这是一场完全不可能预测准确的比赛. 在体育和范围更小的政治领域,遇到这种事情也只能是吞下苦果,接受这个偶然事件--统计行业中称为黑天鹅,然后继续原本的生活. 但是作为网络管理员,我们知道在IT行业中不应该采取这种方式. 按照我的经验,当IT系统出现黑天鹅事件时,管理层通常会对这种事件讳莫如深.随后就会召开一个"经

如果你只关注系统宕机的最坏情况 那就大错特错了

在去年的世界杯比赛期间,Nate Silver和他在地窖里的通灵巫师也犯了错误--他是如何做到如此精准的预测呢?确实错了.他们完全预测错了德国与巴西的比赛结果.正如Silver所描述的,这是一场完全不可能预测准确的比赛. 在体育和范围更小的政治领域,遇到这种事情也只能是吞下苦果,接受这个偶然事件--统计行业中称为黑天鹅,然后继续原本的生活. 但是作为网络管理员,我们知道在IT行业中不应该采取这种方式. 按照我的经验,当IT系统出现黑天鹅事件时,管理层通常会对这种事件讳莫如深.随后就会召开一个"经

weblogic+aix系统宕机问题分析

问题描述 系统在运行半年多以后,于近期开始间隔性宕机:报错日志:UnhandledexceptionType=SegmentationerrorvmState=0x00000000J9Generic_Signal_Number=00000004Signal_Number=0000000bError_Value=00000000Signal_Code=00000032Handler1=09001000A043F128Handler2=09001000A0436D38R0=00000001208B1

避免在云迁移过程中宕机

在公共云迁移期间,IT团队需要采取谨慎的步骤,以避免听到"系统宕机"这种可怕的提示. 随着组织迁移到基于云计算的基础设施,IT团队需要在迁移过程中保持可用性.但是,考虑到所有复杂性,在云计算迁移过程中,防止宕机或最小化停机时间并不容易.云计算团队需要考虑数据不一致,监控不同的软件版本,并检查其网络连接是否成功. 如果企业的应用程序崩溃,业务往往会停止.虽然精确的指标因企业和应用的情况而异,但调研机构Gartner公司在2014年发现,网络停机时间平均每分钟的损失为5,600美元.停机时

Twitter创业史:与iPhone相得益彰可爱宕机鲸

Twitter于北京时间11月7日23:50登陆纽交所,上市首日表现惊艳.开盘股价即达45.1美元,较26美元的发行价大涨73%.截至收盘,涨幅达到72.69%,报收于44.90美元,目前市值达245亿美元.作为Twitter的第一大个人股东,联合创始人威廉姆斯身价超过32亿美元;联合创始人多西身价超10.5亿美元;早期投资人.董事彼得·芬顿身价超14.2亿美元;CEO科斯特洛身价约4.3亿美元.在Twitter成功IPO之际,让我们回顾这家公司的一些早期故事.关键时刻:互联网处于低潮之时,推特

Linux服务器宕机案例一则

案例环境 操作系统 :Oracle Linux Server release 5.7 64bit 虚拟机 硬件配置 : 物理机型号为DELL R720 资源配置 :RAM 8G Intel(R) Xeon(R) CPU E5-2690 8核 案例描述 早晨发现桂林那边一台Linux服务器(虚拟 机)网络无法ping通,于是联系那边的系统管理员通过Lync共享桌面给我,通过他的电脑VMware vSphere Client登录后,发现在控制台亦无响应.无法登录.无法操作,输入操作无响应.也就是说系

ORA-04031错误导致宕机案例分析

今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力.   案例环境:      操作系统 :Oracle Linux Server release 5.7 64 bit    数据库版本:Oracle Database 10g Release 10.2.0.4.0 - 64bit Production   案例分析: 收到告警去检查数据库时,发现实例已经宕机.检查告警日志,发现

一次调查centos 6.2上xfs文件系统宕机后文件数据丢失的经历

阿里云每天都会接到大量的客户工单,工单问题千奇百怪,不少问题调查起来颇费周折.下面的这个问题很有意思,一开始我们以为是ECS的bug,导致用户数据丢失,吓出一身冷汗,后来发现问题出在操作系统.一次次与底层系统的交手,慢慢的让阿里云的产品变得更加透明.   今天接到用户工单,反馈说他的云服务器发生了宕机迁移,奇怪的是迁移后部分文件长度变成0了,但是之前升级应用的时候确认过这些文件肯定是正常的.粗看现象确实比较奇怪,根据用户提供的操作,可以抽象为向xfs文件系统上写了一些文件数据,然后系统宕机.系统

谷歌遭遇宕机 负面新闻竟成正面新闻

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 谷歌在8月17日的宕机让国人见识了什么是集群服务器,更让人见识了一个集群服务器的恢复仅仅花了11分钟的时间,更让人看到了谷歌一宕机,在互联网上的流量竟然下降了4成,这些都足以说明了谷歌在当前世界的影响力,但是谷歌的宕机作为一个维护问题的负面新闻却由于谷歌的应急机制的成功而转变成正面新闻却能够给国内的互联网企业带来巨大的深思和启发. 系统宕机很