百度提前批一面:说下grpo训练loss怎么算

1.自我介绍1min
2.项目介绍,提到了grpo训练
3.说一下grpo的原理以及loss计算
(从策略梯度公式推导开始讲,以及grpo的组间reward怎么算的)
4.为什么需要加上kl约束
(防止更新不稳定,探索太远了)
5.grpo的kl是怎么计算的
(记得是k3-kl)
6.那如果你训练中大量出现全对全错的样本怎么办
(直接丢弃?)
7.如果全部丢弃,会带来什么问题?
(我说有论文表示丢弃没啥问题hhh)
8.面试官摇头,我说那要不再多rollout几个样本
9.怎么多rollout几个?你算一下如果是8张A100训练7B的模型,grpo可以rollout几个样本不炸显存?
10.coding torch写一下grpo的loss吧
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务