字节 Agent算法凉经分享 75min

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 在LM-as-Judge评测中,如何设计实验验证评测模型的打分偏差,并消除其对最终结果的系统性影响?
2. 多模型交叉评测时,若出现明显的打分分布偏移,如何量化偏移程度并设计校准策略?
3. 针对Data Agent的数值计算与逻辑推理场景,如何设计细粒度评测维度,避免只以最终结果论对错?
4. 如何构建高难度的对抗评测样本,以有效暴露Agent在工具调用、参数传递中的隐蔽缺陷?
5. 如何评估评测 pipeline 本身的可靠性?如何证明你的评测结果是可复现、可置信的?
6. 在长链路多步推理场景下,如何设计评测机制,区分中间步骤错误与最终生成错误?
7. 面对人工评测与自动化评测结果严重冲突时,如何设计决策机制与置信度评估方案?
8. 如何在不显著增加调用成本的前提下,提升LM-as-Judge对细微错误、逻辑漏洞的检测能力?
9. 模型迭代后如何设计回归评测体系,精准定位能力退化点并归因到具体训练或结构改动?
10. 多Agent协同任务中,如何设计评测指标区分单Agent能力问题与交互调度逻辑问题?

手撕:现有列表 A,B、C 均调用 A,B 执行出错导致 C 连带错误,从评测与测试角度该如何定位根因?
全部评论

相关推荐

04-11 14:30
已编辑
西安电子科技大学
3.30 一面(50min)结合着项目去问的八股:1.数据一致性怎么保证的?假设是多机房多集群部署,不同机房之间有各自的redis,如何实现整体的限流?2.超时关单如何实现?为什么要用乐观锁?乐观锁和悲观锁的区别?3.aop底层原理?4.如何解决redis大key和热key的问题?5.spring框架中bean如何初始化的?6.spring怎么解决bean循环依赖的问题?7.http请求从浏览器开始到后端服务器的过程?8.http和https的区别?说一下https加密过程。9.什么是公钥什么是私钥?手撕:LCR 194 公共祖先(题本身简单 难在要自己构建测试用例的树)反问环节面完第二天中午约二面,这里因为主包是第一次面试,一面的时候很紧张,说话都哆嗦,本以为已经凉了,没想到竟然过了,不过为了再准备准备还是跟hr约了一个靠后的时间。-----------------------------------------------------------------------------------------------------------------------------4.2 二面(1h)项目:1.详细说一下秒杀业务如何实现?防超卖业务如何实现?redis防止超卖用到了数据库吗?如何进行最终的兜底策略?2.定时任务(SpringTask)实例宕机了,任务是否丢失?有别的方案吗?3.项目中缓存击穿的业务场景?缓存穿透是如何解决的?为什么要用缓存空值?为什么不用布隆过滤器?(布隆过滤器这个点,主包的同门在一面红围巾的时候被连环拷打,布隆过滤器原理?存在的问题?如何解决?事后这个知识点被主包偷师了,也是光速吟唱)4.一个关于项目中支付订单这一业务的连环问:订单表怎么设计的?索引结构怎么设计的?现在需要查订单,根据时间排序,如何设计索引?订单的数据如果非常大,到了几千万,会有什么问题?有什么解决办法?订单场景如何分库分表?分库分表是什么(问这个问题是因为上一个问题没答好,脱口而出只把数据量大的表拆分成小表)?慢查询如何解决?explain关注哪些内容?面试官在聊天框写了一个塞扣语句,让我找有哪些问题。(主包看了半天只找出了一个select * 的问题)八股:1.redis有哪些常用数据结构?zset一般使用场景?zset底层数据结构?(这里主包听错了,以为问的是set的底层数据结构)2.讲讲redis主从复制?3.怎么去保证rabbitmq消费不丢失?生产端如何保证?消费端怎么保证?如何保证消费有序?4.hashmap底层实现原理?发生哈希冲突时,底层如何处理?5.线程池了解吗?线程池好处是什么?手撕:LCR 023 相交链表(最简单的一集)反问环节主包个人感觉二面是整个流程下来最有压力的一面,项目拷打很深,感觉面试官就是想看看你是不是真的做过简历上的项目,所以经常在一些细枝末节的地方层层深挖。回答问题时感觉面试官更想听到的是主包针对某个业务分析业务的核心诉求是什么,然后才是解释为什么要使用这种技术方案?例如未支付超时自动关单和成功支付的并发安全问题,这本来就是一件发生概率很低的事,如果为了保证强一致性而去加锁,反而会牺牲并发量。感觉面试官更想听到的是你对这一业务的思考。-----------------------------------------------------------------------------------------------------------------------------4.3三面 负责人面(40min)面试官上来一看主包的简历,没有实习经历,项目也比较简单,那就换个拷打的方向,今天拷打算法,直接开始手撕,题目本身不难,难在撕出来后面试官又加要求。LCR 095 最长公共子序列(面试时让输出序列,不是长度) 难在撕出来后面试官加要求问主包如果用字符序列CharSequence去做不用String可不可以,后面又加了一个要求具体是啥主包也忘了。然后又问了几个常规问题:1.ConcurrentHashmap底层原理?2.项目中的缓存有设置过期时间吗,你是依据什么设置的?3.为什么要用本地缓存?4.synchronized锁升级过程,详细说一下如何实现可重入?5.reentrantlock底层原理?6.JWT如何实现无状态鉴权的?如何进行加密的?7.为什么会想到要限流,是基于什么样的一个场景?如何压测的?qps是多少?用多少并发量去压测?限流前后缓存命中率有什么变化?(这个问题主包在面红围巾的时候已经被问过一遍了,直接吟唱)8.如果单机redis迁移到集群架构,会出现什么问题,这个时候如何保证一致性?反问环节4.8hr面(20min)都是一些很常规的问题,最后反问了一下具体业务,转正情况就结束了,然后hr拜托主包介绍介绍身边的人来投这个部门(中国交易与广告),主要是缺前端和客户端,这两岗位hc充足,主包所在的小团队后端已经没什么hc了,但是大部门肯定还是机会多多的。-----------------------------------------------------------------------------------------------------------------------------4.8晚发offer整体面下来除了二面压力很大,剩下的几面基本都很轻松愉悦,这里真的要给字节的效率点赞了,除了一面是因为主包自己觉得凉了,就没问hr结果,后面的几面都是前脚面完,两分钟不到就出结果;而且每轮面试前5分钟hr都会发短信祝面试顺利,情绪价值也给主包拉满了。主包之前没有实习经历,结果一上来面的第一家公司就给off了,感觉有点魔幻。
牛客喵🐱:暑期实习/春招进度都在专题汇总页里,还有同阶段同学一起交流 👉https://www.nowcoder.com/link/chunzhaoji2610
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务