大厂推荐算法面经10问

1.你知道 DPO 的损失函数公式吗,
2.GRPO , PPO 与 DPO 区别是什么
3.GRPO / PPO 是 on policy 还是 off policy 的, DPO 呢
4.DAPO 对 GRPO 的改进有哪些
5.Gspo 对 Grpo 的改进有哪些
6.比较一下 process reward 和 outcome reward 
7.强化学习训练时遇到 reward 上升,但 validation 时效果下降,有哪些解决思路
8. VeRL 框架是同步的还是异步的,具体的训练流程是什么
9.了解 RL 的训推不一致问题吗?训推不一致的产生原因是什么
10.你认为未来 SFT 阶段和 RL 阶段,哪个更重要
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
接好运
点赞 回复 分享
发布于 03-01 02:36 上海

相关推荐

社招被裁后找工作记录,十二月底开始到现在 测试岗京东 一面挂水滴筹 一面挂平安 一面挂深信服 一面挂(记得挂的最离谱,啥都没答上来,可能天生与他相冲)某远程岗 一面挂喜茶 一面挂,一面后hr立马电话打听了下情况问我能否二面线下面试就无下文了,可能是我要价太高 就还是挂了夸克千问 一面挂(第一次感受到阿里相关的面试,确实十分不一样)plaud ai 一面挂阿里国际 二面挂某远程  一面挂shein   二面挂蚂蚁-air  二面挂闪购   一面挂ShopBack 应该是三面挂,二三面一起的,但三面面试官东南亚英语面试,实在沟通困难😂新凯来 一面挂Kucoin  一面挂阿里通义实验组 一面挂淘天 一面挂唯品会 offer华为od 笔试没过😂网易 一面挂网易另一业务 一面继续挂新凯来 另一业务组 hr面后挂,大概率还是因为薪资问题四方精创 一面挂蚂蚁-国际 一面挂淘天又被捞  二面挂腾讯-腾讯云 一面挂腾讯-wxg 一面挂traveloka 一面挂指数引力 一面挂 算法题没a出来KODY 一面挂文远知行 三面后挂(没太能复盘出来,可能还是太菜了)富途 offer还是得先准备准备再面试,我边面试边准备 真的浪费了好多机会,继续努力 希望下次能去鹅厂
你被哪些公司挂了?
点赞 评论 收藏
分享
评论
2
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务