整体面试还是不错的,但是没后续了,不知道是哪里出了问题1. 如何进行混合加训2. 混合加训和 continue sft 你觉得哪个效果好,为什么?3. Sft loss的起点数值和收敛情况。4. 讲解一下 rlvr 使用的策略。5. 训练 1t 模型遇到哪些困难,跟小尺寸模型有什么不同6. Benchmark 测评情况,如何根据 benchmark 进行模型效果优化。手撕:top-p sampling、grpo