美团研发二面

1. GRPO 算是 on-policy 还是 off-policy?为啥?

2. GRPO 用的数据不是最新的,为什么还算 on-policy?它的 buffer 是怎么回事?

3. 重要性采样是干嘛的?公式长啥样?能解释一下吗?

4. GSPO 和 DAPO 各自解决了什么问题?用了什么方法?

5. 强化学习里的熵崩溃是啥意思?怎么解决?有必要解决吗?

6. 熵崩溃是咋引起的?

7. 熵崩溃和 reward hacking 有关系吗?

8. 看过 DeepSeek 的技术报告吗?它在推理速度上做了哪些优化?或者说,模型层面有哪些加速推理的技巧?

9. MLA 是怎么回事?能加速推理吗?

10. Qwen3 和 DeepSeek-R1 有啥区别?

11. 怎么判断项目现在的评估指标是不是合适的?

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务