写橘猫的Java

今天 20:33 已编辑南京邮电大学 Java 发布于江苏

关注

Agent开发中最混乱的领域——一文读懂Agent 评测现状

一、为什么 Agent 评测比 LLM 评测更难？

传统 LLM 评测（现在当然更复杂维度更多元化）关注的是文本生成质量——回答是否流畅、事实是否正确、格式是否合规。但 Agent 是一个完整的系统，它要自主决策、调用工具、与环境交互、在多轮对话中保持状态。这意味着：

不能只看最终输出，还要看中间过程是否合理（中间过程非常重要）
不能只看单次执行，还要看重复执行是否稳定
不能只看功能正确性，还要看性能、成本、并发能力
不能只在单一场景测试，还要覆盖工具调用、长上下文、多轮对话等维度（工具调用的能力评测也是目前的难点与重点）

LLM 评测像测发动机，Agent 评测像测整车——必须综合考察在各种驾驶条件下的表现。

二、评测维度的"四层模型"（非常重要）

综合上述框架，可以提炼出一个系统的 Agent 评测四层模型：

基础性能（BasePerf）：延迟、Token 消耗、成功率
对话质量（Dialogue）：格式合规、事实准确、指令遵循
工具调用（Tool Use）：工具选择、参数填充、证据链完整性
系统能力（System：可用性、性能、并发、稳定性

注意：底层不牢，上层不稳。 如果 Layer 1 的延迟就很高，Layer 4 的并发肯定扛不住；如果 Layer 2 的事实准确性不行，Layer 3 的工具调用结果也靠不住。

三、当前业界的主流做法：混合评测模式（无奈之举）

虽然上面列出了很多框架，但在实际工程落地中，直接使用现成框架评测 Agent 的做法目前还不够成熟。原因很现实：

学术框架（如清华 AgentBench、WebArena）环境依赖重，需要 Docker、浏览器、数据库等复杂基础设施
垂直框架（如 SWE-bench）场景单一，难以覆盖自有 Agent 的全部能力
各框架的协议不统一，Agent 接入成本高，结果难以横向对比

因此，当前给自己 Agent 项目做评测的主流方式，仍然是以下三种手段的组合：

手段	做法	适用场景
抽样系统接口层	对 `/chat`、`/tool` 等核心 API 进行健康检查、压力测试、长上下文测试	验证服务稳定性与性能基线
自定义 Benchmark	根据业务场景编写 JSONL 数据集，覆盖格式校验、事实问答、工具调用等	验证业务场景下的正确性与稳定性
学术 Benchmark 参考	选择性复用 GAIA、τ-bench 等公开数据集的部分任务	对标行业水平，发现能力短板

这种"混合模式"的痛点在于：缺乏统一标准，各家自说自话。同一个 Agent，用不同的评测方式可能得出截然不同的结论。

四、Agent 评测正在走向规范化：Exgentic 的启示

Agent 评测的"各自为政"状态正在改变。2026 年初，IBM Research 与 MIT-IBM 联合团队在 ICLR上发表了 Exgentic，提出了一个通用 Agent 评测的统一协议。

Exgentic 的核心贡献在于：

统一协议层（Unified Protocol）：将不同 Benchmark 的交互模式抽象为标准化接口，Agent 无需为每个 Benchmark 单独适配
评测 Harness：支持将同一套通用 Agent 不加修改地接入多个 Benchmark（SWE-bench、τ-bench、GAIA 等）
首个 Open General Agent Leaderboard：首次实现了 5 个 Agent × 3 个 LLM × 6 个 Benchmark 的全因子对比

Exgentic 的实验发现也很有意思：

模型选择主导了 85 倍的方差，但 Agent 架构选择仍能带来最多 11 个百分点的差异
在超过一半的 Benchmark 上，通用 Agent 的表现匹配甚至超过了领域专用 Agent 的 SOTA 成绩

这说明：通用 Agent 评测标准化不仅是可行的，而且已经起步。Exgentic 的方向代表了行业共识——从"每个 Benchmark 一个接口"走向"统一协议 + 通用 Harness"。

五、总结

Agent评测目前并没有很规范很成熟的评测方式与评测框架，基本各家都是针对实际的Agent项目来自定义一个评测的附属项目，并使用行业通用benchmark或按照业务逻辑自定义benchmark。

虽然今年Exgentic这种通用协议开始被提出，但是到落地依然有很久的距离。加之Agent本身就有很强的自定义性与行业专属性，目前最好的方式依旧是针对自己的Agent项目独自开发一套独立的可复用benchmark的Agent评测附属项目。

对Agent评测有兴趣的可以去看看当前比较成熟的clawbench(github同名），就是针对openclaw这种知名的Agent项目而独立设计的一个非常成熟的评测框架。 alt

#AI求职记录##我的求职进度条##你在职场上见过哪些“水货”同事#

全部评论

推荐最新楼层

写橘猫的Java

楼主

南京邮电大学 Java

其实说了这么多，结论就是，个人现在想给自己的项目做出一个高价值的评测框架还是很困难的

1 回复分享

发布于今天 20:36 江苏

今天 15:05

门头沟学院 Java

agent方向不明确了

现在是已经有了比较成熟springai的项目，ragmcptool上下文管理检索算法和向量库，还有用graph做了agent编排之类的，但是在投简历的时候发现agent大多是langchain开发，以后的方向也不确定是不是langchain为主了。目前想法是润python，但是python这个语言都没学呢，现在想学langchain和一些LLM开发框架做个lang graph的项目，大三下是不晚了？马上就暑假想找agent实习，怎么选择呢。。

一人推荐一个值得做的项目

点赞评论收藏

分享

05-12 11:03

中国传媒大学设计

被妈妈说的感觉自己好没用啊😭

本来offer定了很开心，早上跟妈妈打电话想分享一下。没说两句，妈妈就开始泼我冷水😭说工作找了大半年，就这么点钱，能不能养活自己啊？又说这个公司也没听说过，正不正规啊，莫被骗了？然后又说：之前就不让你干设计这行，现在网上都在说AI要取代你们这行了，还不如那时候下下功夫学个计算机就好了。那谁谁他家的儿子，就学的计算机，一毕业就月薪2万……一下子觉得自己好没用，但是又很委屈😭明明我也是在认认真真找工作的呀，为什么总是要说这种话，为什么就不能认可我一次😭大家都是怎么跟爸爸妈妈相处的啊？牛友都这么厉害，大佬们一定是爸爸妈妈的骄傲吧😭

码了个码_12：《学计算机》？

点赞评论收藏

分享

05-12 19:24

已编辑

字节跳动Data_后端开发(准入职员工)

27 双非一年进字节后端

原来已经一年了，因为没有加任何实验室没有学长学姐带，再一次偶然的机会下刷到我们学校的牛肉哥，和他聊天之后发现他也没加实验室能进大厂，我就燃起了希望，去年大概 4 月份找好路线 零基础 开始学 5 月背八股和开始刷算法很难受 7-8 月焦虑躯体化害怕找不到实习 9 月找到一家像样的小厂去实习了 4 个月大三上期末考试结束之后 1 月份回来边实习边准备工作压力很大 当时只有字节、百度、商汤的面试，字节三面挂了，百度 oc，商汤 二面挂（差评 无效面试），之后来深圳百度实习之后还是觉得不甘心一直没把算法和八股扔下一直在准备，百度实习的时候 mt 交给我一个特别重要的工作数据库迁移（特别感谢 mt ，这个需求学到了很多东西处理了一堆线上问题），本来看着暑期他们面试都很困难，然后听说百度要涨实习薪资（然而 5 月并没有涨），就想着留在百度吧也懒得面试了，4 月 20 多的时候字节 hr 打电话约面问我要不要尝试一下询问了 1 月份三面为啥会挂有没有学习 ai 知识（因为字节这边后端岗位偏 ai），我来到百度之后全面拥抱 AI 也认识了我的好兄弟 X 哥，他在百度 XX 部门 Agent 实习，他属于是我 Agent 的启蒙老师，来百度之后一直在了解 AI 这一块，我就接受了字节的面试，一面的时候 20 分钟实习拷打然后突然说 30 分钟代码考核我心就凉了以为是 kpi，算法题是手撕高并发安全下的令牌桶限流器，我写了整整 80 多行代码最后也写出来了，但是从来没看到过出这种题能 oc 的我也就不管了，后边面试也是很顺利但是流程有点长可能一直在横向吧总结结果是好的！！！感谢这一年努力的自己和遇到的各位互联网大佬分享的知识！！！ps 图二纯感慨 （觉得🍬请不要喷我）欢迎大家一起交流学习呀！！！！

点赞评论收藏

分享

今天 20:39

东北大学 Java

双非本，末9硕，研一找agent实习，简历求拷打

boss投了上百份了，都是已读不回的，没有面试，简历有哪里需要优化的吗

点赞评论收藏

分享

昨天 21:13

湖北汽车工业学院游戏前端

日常实习简历求建议

目前大三，本人自知院校和实力都不行，所以不考虑暑期实习。4月份左右试探投了几个有官网的游戏公司，基本初筛都挂，只有梦加给了笔试机会，然后石沉大海，随后继续跟随课程做项目去了。分析自己目前的劣势：1.学习Unity太晚，所以接触并不深，目前还没接触过网络相关和优化相关的内容2.暂时没有完整的独立项目，都是跟着课程做的（唯一一个独立项目是拼图游戏水比赛的，拿不出手），因此准备vibe coding一个项目这个简历也是经过看很多简历结合ai修改出来的，尽量保证一面展示。想找较好一点的日常实习（指那种进去了可以学到东西的，而不是换皮，什么都学不到），丰富简历，然后准备明年春招。不限工作地点，准备海投。求求各位大佬和前辈能给一点意见。

点赞评论收藏

分享

评论

1

1

招聘动态

完美世界

拍了拍你并邀请你投递

上海人工智能实验室

2026年春季校园招聘

27届校招宝典

快手

27届实习超多转正机会

海信集团

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届春招投递记录 #

21304次浏览 154人参与

# 你最近因为什么迷茫？ #

101220次浏览 962人参与

# 我的求职总结 #

494488次浏览 6947人参与

# 你认为工作的意义是什么 #

289757次浏览 1591人参与

# 27届实习投递记录 #

94219次浏览 985人参与

# 腾讯笔试 #

157986次浏览 1150人参与

# 拼多多集团-PDD笔试 #

105685次浏览 646人参与

# 今年秋招哪家公司给的薪资最良心？ #

485814次浏览 2585人参与

# 招银网络科技（深圳）有限公司成都分公司笔试 #

10189次浏览 39人参与

# 你遇到过哪些神仙同事 #

145730次浏览 771人参与

# 字节跳动笔试 #

102735次浏览 390人参与

# 秋招盘点:机械人值得去的企业 #

107711次浏览 744人参与

# 用友工作体验 #

21375次浏览 156人参与

# 如果人生可以debug你会改哪一行? #

29924次浏览 198人参与

# 你的实习什么时候入职 #

383959次浏览 2405人参与

# 拼多多工作体验 #

63997次浏览 444人参与

# 一人推荐一个值得做的项目 #

83692次浏览 921人参与

# 我是XXX，请攻击我最薄弱的地方 #

101001次浏览 656人参与

# Vibe Coding 会干掉初级岗位吗？ #

53224次浏览 343人参与

# 面试中的破防瞬间 #

1270081次浏览 11144人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务