1. 自我介绍2. 项目拷打,重点说训练目标、数据构造和效果闭环3. SFT 的损失函数怎么计算,如果样本长度差异很大要注意什么SFT 本质上还是标准的 next-token prediction,常见就是对目标输出 token 做交叉熵损失。对于指令微调来说,通常不会对整个输入输出序列都算 loss,而是只对 assistant 部分或者需要学习的 target 部分做 mask。这样模型重点学习回答分布,而不是把用户输入再复述一遍。样本长度差异很大时,最需要注意的是 loss 的归一化方式。如果直接对 batch 求和,长样本会天然占更大权重,训练会向长回答风格偏移。更稳的做法通常是按有效...