1、实时生成的聊天代理模型,如果线上出问题了,怎么定位这种问题一般先按链路拆。如果是实时生成类聊天代理,通常一条请求会经过网关、会话层、Prompt 拼装、模型推理、工具调用、结果后处理和流式返回几个阶段。线上出问题时,先判断是全量故障还是部分故障,是所有请求都失败,还是只有某一类请求延迟高、返回空、内容异常。定位时先看监控和日志。监控上看 QPS、平均延迟、P95/P99、错误率、超时率、GPU 利用率、显存占用、容器重启次数。日志上重点看 request_id,把一次请求链路串起来,看是卡在 Prompt 构造、模型推理、下游工具调用,还是 SSE/流式返回阶段。如果是模型输出异常,要回看...