字节大模型算法暑期实习面经

1️⃣一面
1.深挖项目,比如reward怎么设计的,后续有什么改进思路
2.ppo grpo的具体原理以及区别,ppo的critic模型怎么训练的
3.kl散度有什么用,为什么要用kl散度,以及一些kvcache相关的,mla之类的
4.手撕:链表相加,用双指针
2️⃣二面
1.问项目
2.从transformer八股到agentic rl,再到grpo的改进算法以及reward hacking,最后还聊了harness、Hermes这种比较新的agent设计以及讲讲看的最新的论文
3.没有手撕
3️⃣三面
1.聊项目
2.比较长的对话,强化学习怎么做reward,reward什么时候用模型什么时候用规则
3.如何避免奖励坍缩和hacking,同时有什么工程方法可以处理比较长的问答,多轮对话怎么微调,如何保持上下文记忆
4.agentic rl设计的思路,sft到了什么阶段可以做rl,如何评估,
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务