第一次被拉进技术评审会时,我以为自己只是去旁听。结果会开到一半,大家盯着一段异常波动的调用链,讨论一个老问题: 流量上来以后,某个核心模块偶发超时,重试一多,后面的服务压力也跟着抬起来。 当时没有谁直接把答案告诉我。导师只说了一句:“你先别急着改代码,先判断问题到底出在哪一层。”这句话我记了很久。因为真正有挑战的技术工作,第一步往往不是写,而是判断。 接下来几天,我补链路、看日志、对照监控,把请求路径一点点拆开。最开始我也怀疑过是不是单点性能问题,但越看越发现,问题没那么简单。它不是某一行代码突然变慢,而是高并发下,上下游配合方式开始变得脆弱:重试策略叠加、依赖调用放大、部分节点抖动后缺少足够...