字节 Agent算法凉经分享 75min

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 在LM-as-Judge评测中,如何设计实验验证评测模型的打分偏差,并消除其对最终结果的系统性影响?
2. 多模型交叉评测时,若出现明显的打分分布偏移,如何量化偏移程度并设计校准策略?
3. 针对Data Agent的数值计算与逻辑推理场景,如何设计细粒度评测维度,避免只以最终结果论对错?
4. 如何构建高难度的对抗评测样本,以有效暴露Agent在工具调用、参数传递中的隐蔽缺陷?
5. 如何评估评测 pipeline 本身的可靠性?如何证明你的评测结果是可复现、可置信的?
6. 在长链路多步推理场景下,如何设计评测机制,区分中间步骤错误与最终生成错误?
7. 面对人工评测与自动化评测结果严重冲突时,如何设计决策机制与置信度评估方案?
8. 如何在不显著增加调用成本的前提下,提升LM-as-Judge对细微错误、逻辑漏洞的检测能力?
9. 模型迭代后如何设计回归评测体系,精准定位能力退化点并归因到具体训练或结构改动?
10. 多Agent协同任务中,如何设计评测指标区分单Agent能力问题与交互调度逻辑问题?

手撕:现有列表 A,B、C 均调用 A,B 执行出错导致 C 连带错误,从评测与测试角度该如何定位根因?
全部评论

相关推荐

攒人品!!! 大家都要拿到暑期实习的offer啊!!!项目一:1. 你这里的意图判断是怎么做的?直接交给模型做,还是这个用户的查询query做了一些其他处理。2. 为什么要设计这三层记忆架构,是一个通用的设计还是参考了什么论文。3. Agent 的评估是怎么做的4. 有没有评估过你的记忆架构,在没参考openclaw之前和之后的指标有什么变化,成功率有对比吗?5. 你之前向量检索加redis缓存是怎么做的? redis健和值是什么?6. 新的记忆加到文件里 是直接append吗? 覆盖?还是改写?7. 改的方式 模型改吗?模型调用editor去改文件是吗?8. 你觉得 redis+milvus向量存储 和mysql+文件系统+向量检索,他们的优劣如何?优点缺点分别是什么。9. 其实我比较感兴趣的是他们这两种方式的查询检索召回 效率的对比。10. 对于每一个用户,在系统中怎么保存这些不同用户的文档?11. 其实就是模型通过路径去读这些文件是吧,那如果两个人登了同一个账号,在同一时刻,这个文件会被两个不同的用户使用,在这个情况下,你们的系统如何处理?怎么解决这个问题?项目二:1. 你说你的文档准确率达到90%,具体做的改变是什么。2. 那为什么医院的问答项目里,不采用同样的实现3. 你说pdf表格密集,那假如用户就是问一个表格里,第二行是2025年,第三行是2024年,具体问2025年的值是多少,你的系统能做到吗?4. skill是自己写的吗 ,互相之间可以联动吗?5. 为什么不用skill-creator6. 你的数据集是怎么收集的,然后是怎么评估的呢?打分是谁在打分?人在打分 ,还是模型裁判员去打分?如果有很好用的模型裁判员,为什么不用裁判员模型7. 介绍一下KV cache8. 讲一下transfromer架构。算法题1. 字符串数字相减2. 字符串最长连续序列
查看21道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务