📍面试公司:快手💻面试岗位:大模型❓面试问题:1. ppo,dpo,grpo是什么各种的优劣2. ppo中gae的计算3. dpo的数据要怎么做4. 对于grpo有什么改进的思路,dapo和gspo分别怎么做的5. dpo如果正确和错误都下降怎么办6. 分层强化学习要怎么具体设计agent的思路7. reward怎么训练8. reward hacking是怎么出现的,要怎么解决9. 计算7b模型的占用10. fddp和deepspeed怎么做显存优化11. adamw中最占显存的是什么12. 手撕一个MHA