前阵子面某大厂时,我遭遇了一场堪称 “技术理念 Battle” 的灵魂拷问,现在回想起来还忍不住想笑。当时面试官一脸严肃地抛出问题:“实习时排查过线上 CPU 问题吗?如果某个进程把 CPU 吃到快打满,你会怎么操作?”我胸有成竹地答:“首先肯定是监控报警触发了,先定位到具体服务和进程。这种紧急情况得先止损啊,所以会先 kill 掉有问题的进程,接着走灰度回滚,之后再通过日志打点、抓火焰图分析具体代码瓶颈……”话还没说完,面试官眉头一挑直接打断:“等等!你上来就 kill 掉了?什么都不管就直接 kill?”我愣了一下,赶紧解释:“CPU 都快打满了,服务基本没法正常响应,不先止损用户体验崩了...