美团大模型算法实习面经

发点面经攒攒人品~
1. 先answer后cot和先cot后answer,做SFT有什么区别?是否对比过效果?
2. 怎么确保人工标注的数据准确率符合预期?
3. 如何选择合理的SFT的checkpoint,用于后续的RL?
4. 图片怎么输入模型的,一张图片有多少token?
5. 你觉得RL和SFT有什么区别?
6. 为什么不只做RL,而选择SFT then RL?
7. 重要性采样是什么,为什么RL中要加入CLIP机制?
8. On-policy和Off-policy有什么区别?
八股
1. Transformer的decoder中为什么要用自回归因果掩码?
2. 缩放点积注意力为什么要除以$\sqrt d_k$?
全部评论

相关推荐

查看13道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务