美团研发二面
1. GRPO 算是 on-policy 还是 off-policy?为啥?
2. GRPO 用的数据不是最新的,为什么还算 on-policy?它的 buffer 是怎么回事?
3. 重要性采样是干嘛的?公式长啥样?能解释一下吗?
4. GSPO 和 DAPO 各自解决了什么问题?用了什么方法?
5. 强化学习里的熵崩溃是啥意思?怎么解决?有必要解决吗?
6. 熵崩溃是咋引起的?
7. 熵崩溃和 reward hacking 有关系吗?
8. 看过 DeepSeek 的技术报告吗?它在推理速度上做了哪些优化?或者说,模型层面有哪些加速推理的技巧?
9. MLA 是怎么回事?能加速推理吗?
10. Qwen3 和 DeepSeek-R1 有啥区别?
11. 怎么判断项目现在的评估指标是不是合适的?