找到 OSChina 早上 8 点钟容易宕机的原因 ?

最近一段时间,OSChina 网站在早上 8 点出头的时候很容易因为数据库连接池爆满而导致网站宕机。表现的情况是数据库处理大量的查询,堆积大量并发连接,导致无法再连接到数据库,执行一个简单的查询速度也非常慢,数据库机器的 CPU 很高。

但事实上早上 8 点并非 OSC 网站的高峰期,高峰期的时候都不会挂,为什么偏偏在这么一个没多少人访问的时间点宕机呢?

找了很久没发现系统在 8 点这个时间点有什么特殊的任务要做,对数据库也做了一些调整,包括 “ MySQL Can’t Create Thread: Errno 11 ” 的问题。

但是问题依旧。

再次挨个检查系统 crontab 中定义的作业。其中自动构建 Lucene 索引的作业引起了注意。

*/5 8-22 * * * /data/oschina/build.sh lucene_build

系统每 5 分钟执行一次增量索引构建,该构建过程仅在一天早上8点到晚上10点钟进行。

我记得当初这么设置的原因是有一个索引的构建容易出问题,为了避免出问题时没人处理,因此设置了这个时间段,后来一直没去调整。

再查看系统跑 lucene 的进程,我靠,那么那么那么多。。。。。

赶紧一个 killall java 杀掉所有的 lucene 索引构建进程,没几秒钟数据库的连接就下来了,系统恢复正常访问。

所以我现在有 80% 的把握能确定宕机问题就是因为这个索引构建进程导致的。而且索引构建本身不存在问题,问题出在时间点的设定上。试想白天高峰期时候 5 分钟执行一次从来没出过任何问题。也就是说经过了一个晚上(从晚上10点到早上8点这段时间)系统又有很多的数据,导致8点钟启动增量索引构建时一次性任务量很大,无法在下一个5分钟到来之前结束,于是不断启动新的进程,于是不断连接到数据库,于是数据库性能急剧下降,于是挂机。

好吧,It's my fault!

将 8-22 改为 * 后继续观察!

http://www.tuicool.com/articles/Ybe22e2

 

时间: 2024-11-01 11:11:42

找到 OSChina 早上 8 点钟容易宕机的原因 ?的相关文章

服务器宕机的原因有哪些?

摘要:服务器宕机的原因有哪些 服务器宕机的原因有哪些 1.由操作员意向操作的重启--用于维护或更新服务器.部署机房或特殊情况等等. 2.非操作员本身意愿造成的重启--如供电(欠压,过载,波动).震动.硬件质量(热稳定性(热敏度)和抗干扰能力).资源冲突.DirectX文件的损坏.系统不完善或瓶颈问题.病毒.灰尘.散热不良--等等原因而造成重启. 3.由于用户访问量过大,造成资源耗尽,或者你网站的数据超出你的空间限制范围大小也会出现宕机. 本文转自d1net(转载)

HBase问题诊断 – RegionServer宕机

本来静谧的晚上,吃着葡萄干看着球赛,何等惬意.可偏偏一条报警短信如闪电一般打破了夜晚的宁静,线上集群一台RS宕了!于是倏地从床上坐起来,看了看监控,瞬间惊呆了:单台机器的读写吞吐量竟然达到了5w ops/sec!RS宕机是因为这么大的写入量造成的?如果真是这样,它是怎么造成的?如果不是这样,那又是什么原因?各种疑问瞬间从脑子里一一闪过,甭管那么多,先把日志备份一份,再把RS拉起来.接下来还是Bug排查老套路:日志.监控和源码三管齐下,来看看到底发生了什么! 案件现场篇 下图是使用监控工具Gang

Twitter称宕机因系统故障 黑客宣称攻击所致

新浪科技讯 北京时间6月22日凌晨消息,Twitter网站今天在两个小时中多次宕机和恢复服务,最早一次宕机是从太平洋时间9点(北京时间22日0点)前后开始的. Twitter表示,此次宕机的原因并非网站遭到攻击,而是由于Twitter本身的系统发生了故障. Twitter通信人员在太平洋时间12:17(北京时间22日3:17)发布Twitter消息称:"今天服务中断的原因是我们的基础设施组件之一出现了故障.我们将在不久以后提供更新信息." 但据CBS亚特兰大部门报道称,黑客组织UGNa

谁之过?盘点2015年上半年IT宕机事件

在互联网已经成功"挟持"我们的现在,假如未来某天早晨起床后发现,网络瘫痪,服务器宕机,我们早已习惯了的"秩序"轰然倒塌,那会是何种场景?   人始终有种不满足的心态,希望身边的一切都是完美的,但现实却总不能如愿.就像服务器,谁也不敢说能够达到100%的可靠性.然后人们就去追求99.9999%,追求99.999%,要求每年的宕机时间要少于在5.26分钟. 2015已过半,在这半年内,全球共发生了多少起宕机事件,已无法统计,但是,我们仍然希望举出我们所熟知的例子,来&q

HBase原理-RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘.为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中.如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失.HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据. HLog简介 为了更好的理解H

新浪宕机暴露开放平台下的潜在危机

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 12月1日上午10时,新浪微博突然无法正常访问,通过网页.客户端访问微博的网友再也收不到新的消息,也无法发送消息.这个故障持续了将近4小时,引起众多网友的不满,预估波及的用户达数千万,直到下午14时才得以全面恢复. 关于微博宕机的原因,新浪三次改口,最终解释是上午访问量太大,因而出现了严重拥堵现象.新浪微博官方发表的致歉声明中解释,微博发布量

我叫服务器,你们休想看到我宕机的样子

我叫服务器,承载了全世界互联网行业的光荣与梦想.最近,听说居然有人敢质疑我的权威,说我会不会宕机?明确告诉你,你可以骂我卡,但就是不让你看见我宕机! 不是不想休息,而是不能宕机 我们服务器是每一家互联网企业的支撑,如果支柱倒塌那会是怎样的灾难?所以我们不是不想休息,而是绝对不能宕机! 夜深人静,依然奋斗的服务器 服务器存在的目的与家用电脑是完全不同的两种,家用电脑存在着不需要使用的时间点,而且这个时间点往往很长,因此家用电脑可以有很长的休眠时间.而服务器则不然,不同公司的服务器对使用时间段不同,

IT宕机,和力记易容灾备份能做什么

  IT宕机所造成的影响 1.直接经济损失 据美国权威机构波耐蒙研究所2016年1月份的调查显示,数据中心IT宕机时间的平均成本为每分钟9000美元.某电子商务巨头2013年因服务器停摆40分钟造成了500万美元的直接损失.在这些公开的案例中,我们可以非常直观的从数字上了解到IT宕机所造成的巨额经济损失.然而,IT宕机所带来的不良后果还远不止这些. 2.丢失重要数据 业务停顿是IT宕机最直接的影响,除此之外,如果备份机没有起到应有的作用,还极易丢失数据.据悉,安徽省某市级人民医院在2015年因为

亚马逊“未免”宕机命运 近30分损失近200万美元

硅谷网8月20日讯 过去的一周,诸多网站遭遇宕机事件,并引发了的较大损失. 特别上周五,谷歌一度宕机,不仅损失数十万美元,而且也引发了http://www.aliyun.com/zixun/aggregation/31875.html">全球网络流量暴跌40%:而微软的Outlook.com也宕机三天,为此微软还发布声明向用户道歉:此外,<纽约时报>网站也在上周遭遇宕机. 今天,亚马逊也未能避免"宕机"厄运. 诸多消息称,亚马逊网站今天宕机约30分钟,从美国