压测一开始,群里有人发了张监控截图:某条链路的耗时曲线突然往上拱,错误率也跟着抬头。它不是那种一眼就能定位的故障,没有谁会马上说“这里改一行就行”,但所有人都知道,如果这种抖动出现在真实高流量场景里,后面一定会被放大。 当时你手上负责的是一个具体模块,原计划是按软件开发流程把架构设计、编码、测试和文档补齐。很多实习生第一次遇到这种情况,直觉都是先改代码,把最慢的那段逻辑优化掉。但真正的难点,往往不在“哪一段慢”,而在系统为什么会在并发上来之后开始失真。 先做的不是拍脑袋改,而是把问题拆开看。请求是在哪一层开始堆积的,依赖调用有没有把局部波动传成整条链路的超时,重试策略是不是在高流量下反过来放大...