一、为什么 Agent 评测比 LLM 评测更难? 传统 LLM 评测(现在当然更复杂维度更多元化)关注的是文本生成质量——回答是否流畅、事实是否正确、格式是否合规。但 Agent 是一个完整的系统,它要自主决策、调用工具、与环境交互、在多轮对话中保持状态。这意味着: 不能只看最终输出,还要看中间过程是否合理(中间过程非常重要) 不能只看单次执行,还要看重复执行是否稳定 不能只看功能正确性,还要看性能、成本、并发能力 不能只在单一场景测试,还要覆盖工具调用、长上下文、多轮对话等维度(工具调用的能力评测也是目前的难点与重点) LLM 评测像测发动机,Agent 评测像测整车——必须综合考察在...