1.介绍一下 DPO , PPO , GRPO2.介绍一下奖励函数的坍缩现象和问题3.离线强化学习和在线强化学习了解么?你的项目里是哪种?4.代码:onehot100的2d接雨水5. GRPO 公式?为什么公式里面 clip 了外面还要计算一次 mean 呢?6.讲讲qwen2.5vl, llama7.多目标优化奖励函数冲突,8.介绍一下 QKV 的计算?9.手撕MHA📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。