腾讯-26校招-大模型算法二面 1h

攒人品中,祝大家都能拿到满意的Offer!
 八股
1. 强化学习相关的方法
2. 对ppo的了解,grpo,dapo的了解,grpo可能有哪些劣势,ppo的value model为什么能够计算出平均的baseline奖励
3. grpo的rollout是多少,为什么不用连续的奖励
 coding
x求平方根
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-27 09:23 广东

相关推荐

点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务