字节大模型算法暑期实习面经

1️⃣一面
1.深挖项目,比如reward怎么设计的,后续有什么改进思路
2.ppo grpo的具体原理以及区别,ppo的critic模型怎么训练的
3.kl散度有什么用,为什么要用kl散度,以及一些kvcache相关的,mla之类的
4.手撕:链表相加,用双指针
2️⃣二面
1.问项目
2.从transformer八股到agentic rl,再到grpo的改进算法以及reward hacking,最后还聊了harness、Hermes这种比较新的agent设计以及讲讲看的最新的论文
3.没有手撕
3️⃣三面
1.聊项目
2.比较长的对话,强化学习怎么做reward,reward什么时候用模型什么时候用规则
3.如何避免奖励坍缩和hacking,同时有什么工程方法可以处理比较长的问答,多轮对话怎么微调,如何保持上下文记忆
4.agentic rl设计的思路,sft到了什么阶段可以做rl,如何评估,
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

05-08 13:35
门头沟学院 Java
攒人品中,祝大家都能拿到满意的Offer!1.实习拷打2. 视频进度的redis缓存和定时任务异步落库的方案介绍一下3. 视频进度定时任务该从redis里面扫哪些数据4. 视频进度的hash结构是采用视频章节作为key,value部分是用户id作为key,field 里面又是一个map这样的吗(这里被带偏了,真正的结构不是这样的,后面就全是被面试官追着问)5. 这个value中的map里的数据什么时候会被删除掉呢6. 那这个redis 的hash结构的map内部的key和value来去设置过期时间吗,redis有提供这样的方法吗7. 重新设计这一块的Hash结构该怎么设计,有效期该怎么进行一个设计8. 用户一个视频没有观看完,在中间就进行了一个关闭,你是怎么去判断这个关闭的9. 前端超过了10秒没有给你提交是怎么判断用户离开这个页面,有一次请求超时了丢包了该怎么考虑10. rabbitmq如何实现一个延迟功能11. 如果前端因为网络原因一直无法提交后续的,这个进度是有一部分的丢失,这个该怎么解决呢12. 简单介绍一下微途旅行的项目13. agent用到了哪些工具14. 如何管理这个agent的多轮对话,记忆化15. 会考虑做一个消息的裁剪吗16. 每一次对话都会从mysql里面把用户所有的历史的绘画全部都取出来吗?17. agent背后的调用的模型是什么
查看16道真题和解析
点赞 评论 收藏
分享
-----------------------------问agent1.介绍一下agent项目的背景和架构设计?2.是基于langgraph去搭建的吗?3.用langgraph4J去搭建的话,工作流是怎么设计的,每一步是怎么拆的?4.为什么要把工作流引擎和业务模块拆分开呢?5.如果某个节点失败了,是怎么处理的?6.这里有节点失败后自动修复的机制吗,是否有旁路上的一些办法去修复这个事情?7.你用的Spring AI去做的整个架构的话,怎么接收大模型返回的内容?SSE?8.我看你这里有个chatClientFactory的设计,怎么把它扩展成一个多用户的工厂管理?9.场景题:假如把这个agent编排平台部署在网站上,对用户提供订阅服务,你要怎么解决用户问题->你的服务器转发请求->请求各类模型->返回结果到你的服务器->返回给用户这个链路,以及怎么区分开每个用户的请求?(要用几个api key?每个用户配一个api key?)-----------------------------------问轮子10.你的数据库轮子的事务管理是怎么做的呢?(我答的xid文件和undo/redo log)11.如果事务比较长,运行到中间的时候报错,比如服务器断电,或者发生了其他的一些事故,这个事务怎么去恢复呢?12.你简历里提到了2PL协议,描述一下2PL协议?13.你提到的LRU在做什么事情,你的数据库使用的LRU吗?14.你引入LRU主要是解决什么样的问题?15.你最近最少使用的不应该是让它一直保留在缓存里面吗?16.下面提到的这个B+树是自己写的B+树吗?17.sql查询的过程当中你的B+树是怎么查找的?18.在你的数据库中构建索引是怎么实现的,用到B+树了吗?-------------------------------八股19.MySQL的日志有什么作用,binlog?20.binlog的主从是怎么实现的?21.主库写然后同步到从库,这个过程会有延迟吗?22.在主从分离这种数据库架构里面,读和写是分离的,我写完之后立马查,需不需要做什么sleep或者什么样的间隔?23.同一个操作,写完立马查,能查到这个操作刚写的数据吗?24.Redis的zset的底层数据结构是什么?25.什么场景下会用的Java多线程?26.你做项目的时候什么场景会用多线程?27.什么时候会用到多进程?28.一个程序什么时候用多线程,什么时候用多进程?29.假如上面提到的用agent平台去卖token,多个用户在访问你的服务器,这个时候是多进程还是多线程?
查看29道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务