字节大模型算法岗暑期实习面经
1.深挖项目,比如reward怎么设计的,后续有什么改进思路
2.ppo grpo的具体原理以及区别
3.ppo的critic模型怎么训练的
4.kl散度有什么用,为什么要用kl散度
5.强化学习怎么做reward
6.如何避免奖励坍缩和hacking
7.多轮对话怎么微调
8.如何保持上下文记忆
9.agentic rl设计的思路
10.手撕是链表相加,用双指针
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.ppo grpo的具体原理以及区别
3.ppo的critic模型怎么训练的
4.kl散度有什么用,为什么要用kl散度
5.强化学习怎么做reward
6.如何避免奖励坍缩和hacking
7.多轮对话怎么微调
8.如何保持上下文记忆
9.agentic rl设计的思路
10.手撕是链表相加,用双指针
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
查看14道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享