自己亲手引发运维事故,是一种什么体验?


以下来自知乎好有“罗健”的回答:
这是我刚入行时引发的一起事故。
某互联网公司,有一个实时计费系统。
有一天我闲着没事干,到前台泡妞。
前台小姑娘和我说,计费系统的时间不准,慢了刚好1年。

我问他之前是不是也这样,她说是的,一直都比实际慢1年。
我估计是系统上线的时候,实施工程师把年度时间改错了。但是用了这么长时间都没有问题,说明并不影响计费系统的正常运行。
但是前台小姑娘可是个大美女,既然她提出来了,我想,怎么也得露两手,谁叫我是“专业”的运维工程师呢。
我不经思考就直接对她说:“这简单,把 Linux 系统时间改一下就可以了。”
然后,在计费系统里熟练地输入了更正时间的代码,毫不犹豫地按下了回车。
前台小姑娘一脸微笑,但是突然,她脸色凝重了起来,指着计费屏问我:“怎么在线用户都不见了?
我一看,也觉得奇怪,正常在线用户都有1000多人呢,现在怎么只有几十人了?
我纳闷了好长一会,然后接到了客服部的电话,客服部急迫地问我:“是不是有什么故障?投诉台有上百个电话同时打进来,说是断网了
我顿时脸色大变,眼睛瞪得老大了,意识到出大事了!
监控室几乎也是同一时间,也打电话过来了,问我是不是出了什么故障了,他们监控到有大范围用户断线的异常告警。
我吓得腿都软了,站都站不稳,脑子一片空白,冷汗从额头处瞬间冒了出来。
正当我不知所措的时候,已经惊动到了直属领导涛哥,因为后台监控系统一旦有告警,告警短信就会第一时间自动发到相关维护人员的手机上。
涛哥打电话问我怎么回事,我实话实说了,是边哭边说的。
涛哥也是很有领导魅力,当下叫我先保住现场,稳住用户,他和运维组的工程师们马上赶过来。
10多分钟后,涛哥和运维组的工程师及DBA火速抵达了现场。
故障的原因是时间变快了1年导致的,所以在1年内过期的账号全部被踢下线了,而且无法重新登录。
当时 DBA 写了个语句查询之后发现,这些账号多达3千多个。
将时间再改回去也行不通,系统时间就会颠倒错乱,数据就全乱套了,后果更严重。
涛哥果断做了决定,直接修改数据库,将这3千多个账号的到期时间,全部改到年底。
DBA 赶紧写了相关语句,同时对相关的数据表进行了备份。

语句准备执行的时候,DBA手都抖了,涉及到的账号不是一两个,而是几千个,影响范围太大了,万一有啥差错,就吃不了兜着走。

语句执行的时间很长,我们的心都在颤抖,好在顺利执行了。
之后,我们赶紧抽查一部分账号,发现这些账号已经能正常登录了,然后赶紧通知客服部的工作人员,叫用户重新登录,借口是网络波动导致的。
从故障发生到恢复,用了40多分钟
但是,计费金额和财务账上的已经对不上号了,后续财务部算了一下,出现了40多万元的空缺。
正常情况下,故障时间超过10分钟就会被定性为事故,总部将这次事故定性为1级:严重事故,人为。
这件事结束后,我被调离了工作岗位,公司对我进行了长达3个月的重新考核,职称从T2降级到了T3,年终奖和绩效全没了……
我的直属领导涛哥,因管理不善,被记大过处分… …

来源:https://www.zhihu.com/question/43860483/answer/3134631762

留言更精彩,以下为该热评:
昵称为胖哥哥的知友留言:
前台都管得到计费系统,手也太长了[doge]
昵称为 greensea 的知友留言:
而且居然还有修改系统时间的权限
昵称为扬帆远航的知友留言:
权限管理太混乱[惊喜]
昵称为农夫山泉的知友留言:
前台一看这小青年太冲动,不宜处对象
昵称为沧桑的夜晚的知友留言:
从流程到制度有太多的不合理,更高级别的人该受到处罚才是。
昵称为 PegionFish 的知友留言:
某人员脑子一热就能在前台终端上实时对生产服务器配置进行修改……讲真贵司IT部门架构师/领导团队需要被……

以下来自知乎好友“爱网上冲浪”的回答:

曾经给公司的一个客户维护数据库,要删除一个测试用户。输入完 delete from users,顺手快捷键执行了。。。最坑爹的是数据库是游戏组的老哥搭建的,用的phpstudy搞的,没有开启binlog,数据库的几十万用户,客户花了几百万推广费。那一瞬间,就感觉背后汗水流下来了。

结果因为有外键,没删掉!!

真是吓死爹了。。。

来源:https://www.zhihu.com/question/43860483/answer/2734742369


以下来自知乎好友“乔木leon”的回答:

学网络的小伙伴,老师都应该告诫过你们没事别打 debug all 吧。
嗯,我打了,导致一台核心交换机歇了,全公司断网。
当时刚毕业头铁,全组的前辈们对我只有牛逼两个字的评价。
最后把线拔了换了冷备的交换机,等 debug 完了又切回去的。

来自知乎的“猫老师100418”的回答:

哈哈哈,我正儿八经的引起过一次运维事故
那是在我刚上班不久,那时基站还用的是很老式的西门子设备,喻嗡的那种,那时还没有专用的开关电源柜,线路保护啥的都摆设。
我有次去基站跳纤,一不小心把一个设备的电源线给整短路了一路火花带闪电,唰的一下整个机房就安静了,所有在闪的灯全灭了,我整个人就斯巴达了,哆嗦了30秒给老大打电话”我好像把基站电源烧了”
老大什么也没说,半小时之后开车过来,把空开推了上去,机房又亮了
幸好那时候没有退服啊之类的考核。。。。。不然实习期就要提桶跑路了

来自知乎的匿名用户的回答:
算是间接吧(反正我是不会认的……
给客户做的操作员培训手册和PPT是我写的,直接用了实际生产系统的地址;
然后队友拿着这俩文件去给客户的新员工做培训,直接进了客户的生产环境一顿演示……
老板后来跟我说,如果当时不是队友在现场,我在另一个地方出差,他在公司两个都逮不着,他能用键盘把我们俩一起拍成伯邑考……
来源:https://www.zhihu.com/question/43860483/answer/2739619991

流程管理、制度管理、权限管理,各种情况如何避免?欢迎留言讨论~

近期好文:

高效部署:基于 Prometheus 的云原生监控,用完真香?

“高效运维”公众号诚邀广大技术人员投稿
投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。

点个“在看”,一年不宕机

标签

发表评论