1.你知道 DPO 的损失函数公式吗,2.GRPO , PPO 与 DPO 区别是什么3.GRPO / PPO 是 on policy 还是 off policy 的, DPO 呢4.DAPO 对 GRPO 的改进有哪些5.Gspo 对 Grpo 的改进有哪些6.比较一下 process reward 和 outcome reward7.强化学习训练时遇到 reward 上升,但 validation 时效果下降,有哪些解决思路8. VeRL 框架是同步的还是异步的,具体的训练流程是什么9.了解 RL 的训推不一致问题吗?训推不一致的产生原因是什么10.你认为未来 SFT 阶段和 RL 阶段,哪个更重要📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。