差点把线上搞崩那次,到现在想起来手心还会出汗。实习第六周,我改了一个配置参数。自测过了,跑了几个case没问题,心想这么小的改动走什么灰度啊,直接上呗。提交MR的时候mentor拦住了我,说走灰度。我当时内心是翻白眼的——至于吗?灰度放了1%的量,五分钟之后监控开始报警。我改的那个阈值,影响了下游一个缓存服务的淘汰策略。我看着监控面板上那条飞起来的红线,感觉自己的血也凉了。mentor倒是很淡定,一键回滚,然后跟我说:这个接口日调用量几千万。如果刚才全量上了,你今天就可以体验什么叫P0事故复盘了。那一刻我是真的怕了。不是怕被骂,是怕影响真实的用户。之前在小厂实习,出了bug重启一下就好了,DAU才几千,没人在意。但大厂不一样,你敲的每一行代码背后都是真实的人在用。从那以后我再也没有跳过任何一个流程。你说大厂的流程烦不烦?烦。但被流程保护过一次之后,你会真心感激这份烦。感谢我师,就我🐶命