阿里暑期agent开发一面分享
给我面没招了,发点面经攒攒人品~
1.拷打自己的论文项目,会问很多细节的问题
2.八股如下:
1.RL训练中一般看什么参数
2.reward hacking是什么,一般在参数中怎么体现
3.PPO GRPO DPO 优势劣势 适用场景
4.DPO 需不需要加KL
5.rand7()怎么变成rand10() 拒绝采样
1.拷打自己的论文项目,会问很多细节的问题
2.八股如下:
1.RL训练中一般看什么参数
2.reward hacking是什么,一般在参数中怎么体现
3.PPO GRPO DPO 优势劣势 适用场景
4.DPO 需不需要加KL
5.rand7()怎么变成rand10() 拒绝采样
全部评论
相关推荐
点赞 评论 收藏
分享
04-27 15:01
早稲田大学 Java 点赞 评论 收藏
分享