被横向挂了,希望发出来对大家有帮助!1. 先answer后cot和先cot后answer,做SFT有什么区别?是否对比过效果?2. 怎么确保人工标注的数据准确率符合预期?3. 如何选择合理的SFT的checkpoint,用于后续的RL?4. 图片怎么输入模型的,一张图片有多少token?5. 你觉得RL和SFT有什么区别?6. 为什么不只做RL,而选择SFT then RL?7. 重要性采样是什么,为什么RL中要加入CLIP机制?8. On-policy和Off-policy有什么区别?八股1. Transformer的decoder中为什么要用自回归因果掩码?2. 缩放点积注意力为什么要除以$\sqrt d_k$?