今天服务挂了9小时

今天早上9点老大在群里发个截图,问我,这个服务怎么挂掉了,有没有加报警。吓得我立马穿上鞋子就往公司跑。因为这块是很关键的服务,订单、营收、佣金这都是电商的命脉,到公司之后发现,这个服务从昨晚0点开始就down掉了,然后到早上九点才发现和恢复。也就是整整挂掉了9个小时,这绝对是不可接受的。

然后,在这个过程中,还没有收到任何报警,毫无疑问,这全是我的问题,全责,虽然服务不是我弄挂的,但是告警策略制定的有问题,导致服务挂了9小时也没有收到告警,告警策略制定的缺陷源于对业务理解的还不够。当今天发现这个事实之后,真想找个洞钻进去,因为这是首页的关键服务,用户每次进来都会触发的服务,是绝对应该保证稳定性的。

后面到公司之后我查看了服务的监控图: services
这个是以天为单位的监控图,从图中明显可以看到断了一截。然后我们把那个缺口细节放大看看另一张监控图: services
这个是以小时为单位的监控图,明确看到服务down了9小时。

来公司半年,就碰到了这个问题,还是在这么关键的时间点(因为明天就是京东6.18),惊动了上面N层的老大,留下的记忆太深,当然,也足足涨了一次经验值。

后面我又重新梳理了一下业务,更新了告警策略。把这个服务的子模块也全都加上了报警,顺便也把我以前写的几个模块加上了告警,虽然这次没问题,但顺着这次机会也就一起复查一下了。一般的告警大概三部分:

写代码是一件很严肃的事!

2015.06.17 22:14