腾讯-26校招-大模型算法二面 1h

攒人品中,祝大家都能拿到满意的Offer!
 八股
1. 强化学习相关的方法
2. 对ppo的了解,grpo,dapo的了解,grpo可能有哪些劣势,ppo的value model为什么能够计算出平均的baseline奖励
3. grpo的rollout是多少,为什么不用连续的奖励
 coding
x求平方根
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务