艺龙网宕机27小时主因:存储系统备份架构不完善

7月14日消息,11日下午2点到12日下午4点,艺龙旅游网出现了持续的访问故障。据了解,该事件最初是EMC存储设备出现故障,而由于艺龙网的存储结构不完善导致长时间无法修复。

此次事件在互联网行业的系统架构领域引发了很多的讨论,艺龙因为这次宕机事件,其网站服务和呼叫中心业务也无法进行,据一些媒体计算,艺龙网这次直接损失超过14.7万营业收入,而其对客户造成的潜在影响无法估计。

EMC存储出现问题引发连锁反应

11日下午,不断有网友反应艺龙网访问出现错误,很快,官方就出现了“系统故障,正在修复中……”的提示。对于这家以网站和呼叫中心为主要经营窗口的企业来说,此故障直接影响到业务运营。

12日早上8点,艺龙CEO崔广福表示,艺龙的存储系统出现故障,导致全部服务中断,崔广福称艺龙和EMC的工程师已抢修18个小时。

至此,不少目光集中在EMC公司上,艺龙网使用的存储产品由EMC提供,据接近现场人士透露,此次宕机也的确是存储硬件出现问题,导致数据库挂机,系统恢复需要较长时间造成。

12日下午呼叫中心恢复机票服务,网站服务等在4点开始恢复,到18点全部业务恢复运营。

备份架构不完善导致维修时间较长

对于艺龙网这次出现问题的原因一时众说纷纭,在不少人认为EMC硬件出现问题时,一些企业技术架构人员开始声援EMC。

丁香园网站CTO冯大辉在微博表示,EMC的产品不会持续到几十个小时恢复不了,而一位网友也提到,“做为EMC的竞争对手也不得不说,这不只是硬件的问题”。

IT服务公司中达金桥的孙巍表示,他在12日到现场参与系统恢复。从他的复述中得知,EMC存储硬件出现故障引发了整个事件,而由于艺龙对数据库的备份不足,存储层没有灾备方案,导致系统恢复缓慢,虽然硬件很快恢复正常,系统仍然无法工作。

据深入介绍,企业在运营平台的系统设备架构中,为了应对突发硬件、软件故障,一般需要对各个层级的系统进行备份,比如在服务器端使用双机热备,在存储层完成灾备,在软件层做冗余工作。这样任何一个环节出现问题都可以及时找到替代。

而在艺龙的事件中,艺龙的存储架构只预备了高性能架构的集群备份,灾备的准备依赖唯一的存储硬件,软件层也缺少冗余准备,这样存储出现问题,事先准备的灾备准备也就不起作用。

“把所有鸡蛋都放在一个篮子里,篮子出了问题,鸡蛋就全碎了。”孙巍这么形容。

存储行业的一些厂商人士在微博上纷纷表示,硬件不可能保证100%数据安全,要硬件保证不出现问题是不可能的,企业需要在架构上减少硬件出错对企业运营的影响。

到截稿为止,艺龙和EMC并没有回复关于此事技术过程的疑问。

艺龙再次停机升级或为加强存储系统

14日凌晨,艺龙网再次宣布停止运营7个小时,以实现系统升级。此前崔广福在微博上发出“英雄帖”,邀请咨询师、方案服务提供商、专家等为艺龙数据中心系统构架、灾备方案及运维管理会诊。这也说明艺龙对此次事件的重视。

业界人士认为,对于一个在线服务提供商,时刻在线和稳定性成为消费者一种信赖和依靠,而出现系统完全停止服务将对客户感受造成较大的影响。

据存储技术人士透露,主要的容灾技术结构已经完善,各个单位采用不同的架构主要原因还是因为成本问题。

也有人认为,这次的事件对于灾备行业来说将是一次促进,企业和政府单位在认识到意外发生的结果后会加大数据系统的投入。

(责任编辑:admin)

时间: 2024-09-29 04:15:36

艺龙网宕机27小时主因:存储系统备份架构不完善的相关文章

微软Hotmail等网页电子邮件服务宕机3小时

http://www.aliyun.com/zixun/aggregation/17197.html">北京时间3月13日消息,微软网页电子邮件服务Hotmail和Outlook.com周二持续宕机3小时,许多用户通过Twitter等网站报告了这一宕机事故. 上月有报道称,微软已决定将Hotmail的用户转移至Outlook.com.然而此次宕机事故表明,微软的转移过程可能存在问题.微软这一平台转移是渐进式的,用户可以自主选择是否从Hotmail转向Outlook.com. 在此次事故中,

艺龙旅行网宕机26小时的危机处理

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 7月11日,国内知名的在线旅行网站艺龙旅行网服务器宕机,并导致呼叫中心瘫痪,时间长达26个小时,在业界引起了高度关注.作为一家在线销售旅行产品的网站,艺龙旅行网此次宕机的经济损失不小,但这些都是可以估量的损失.真正无法估量的是品牌声誉,对用户造成的伤害,这将是无法估量.也是无法承受的损失. 艺龙服务器宕机20多个小时候后,我在新浪和腾讯微博发

存储系统故障导致台北桃园机场宕机36小时

 这几天国内 IT 业界最热门的新闻不外乎是中国台湾省台北桃园机场境管系统当机 36 小时了:事情一发生,各种专业的,非专业的猜测,流言,内线消息不断,热闹极了. 有人从政治的角度解读(这好像是这几年国内各种事件必然要有的一个面相),说是为了掩护某些人士的出境:而笔者看到网络上最扯的说法是被"某国"给黑了,放毒了,对于这些,笔者 只能用一句电视上的广告台词"不要再相信那些没有根据的传言了"来响应. 没有任何一位 IT 人员(尤其是 IT 工程师)愿意看到系统在自己的

美联社新闻数据库宕机5小时 波及美大部分报纸

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 北京时间10月115.html">26日上午消息,据国外媒体报道,周一美联社遭遇计算机故障,在5小时中各家报社及其他一些新闻媒体无法收到该社的大量报道. 故障发生于美国东部时间周一下午3时(北京时间周二凌晨3时),当时美联社正试图安装微软推荐的一个安全补丁.该社希望在下周的美国全国和各州大选前提高安全性. 美联社首席信息官洛林

三星韩国数据中心火灾 多项服务宕机数小时

三星SDS大楼发生火灾新浪科技讯 北京时间4月21日早间消息,三星官方网站Samsung.com网站周日出现宕机,导致许多用户的三星手机.平板电脑和智能电视收到了错误消息.根据社区新闻网站Wikitree的报道,此次宕机是由于位于韩国果川的三星SDS大楼发生火灾.此次宕机导致三星的用户无法访问一些应用.宕机持续了几小时时间,并于美国东部时间周日6:15(北京时间周日18:15)左右得到解决.三星SDS在一篇博客中确认了火灾和宕机事故,并对带来的不便表示道歉.韩国媒体报道称,此次火灾没有导致人员伤

Gitlab.com 误删数据,备份恢复失败已宕机 10 小时

GitLab.com 官方网站发布声明称由于其产品数据库问题导致的网站无法正常访问.据国外媒体报道称 Gitlab 网站疲惫的系统管理员深夜在进行数据库维护时,使用 rm -rf 删了300GB 生产环境数据.等到清醒过来紧急按下ctrl + c,只有4.5GB保留下来.然后恢复备份失败,网站已经宕了10个小时,现在还没恢复. 目前可以确认的是 Gitlab 的数据备份是无效的.报告称此次数据丢失并非仓库的数据,而是仓库相关的 issue 以及合并请求操作. GitLab.com 号称有五重备份

Twitter因系统维护而宕机数小时

北京时间8月1日晚间消息,据国外媒体报道,出于维护需要,微型博客Twitter周日早上一度停止服务数小时,致使全球约1亿用户无法正常使用该服务. 周日早上,当用户访问Twitter网站时,页面给出提示:"因按计划维护而暂时无法访问,预计几个小时候后可恢复." 据悉,Twitter托管服务商NTT America于美国东部时间周二凌晨2点钟进行了系统维护,计划持续约5个小时.凌晨3点半左右,部分用户可以正常使用Twitter.但几个小时之后,仍有部分用户无法访问.(李明)

预防宕机靠RAC,和力记易说那就OUT了

   "宕机"是计算机术语,是根据英文down翻译过来的,是指系统无法从一个系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重启动系统的现象.日常生活中我们遇到的电脑"蓝屏"就是宕机的一种常见表现,此外,专业IT机房里的服务器也会因为数据库死锁.某些服务挂掉等发生宕机. 为了避免服务器宕机,很多公司会聘用专业IT运维工程师24小时待命通过显示器查看服务器日志,通过报错的错误代码确定具体原因,并依据不同原因予以解决.信息业务量较大的公司(例如:

双十一:阿里交易额571亿元 凡客曾宕机

摘要: 随着昨晚24点钟声的敲响,2014双十一电商购物狂欢正式闭幕,阿里以单日交易额571 亿元,交上了上市后的首份双十一成绩单. 在阿里的总部杭州,马云( 微博 )和被称之为马云背后的男 随着昨晚24点钟声的敲响,2014"双十一"电商购物狂欢正式闭幕,阿里以单日交易额571 亿元,交上了上市后的首份双十一成绩单. 在阿里的总部杭州,马云( 微博 )和被称之为马云背后的男人-- 阿里巴巴集团 副董事长蔡崇信也都出现在媒体面前.阿里"双十一"大平台的效应甚至已经渗