SFT/DPO/PPO/GRPO训练方法解析 监督微调(SFT, Supervised Fine-Tuning) 监督微调是训练语言模型的基础方法,通过提供高质量的输入-输出对来调整预训练模型的参数。SFT通常使用交叉熵损失函数进行优化,公式如下: [ \mathcal{L}{SFT} = -\sum{t} \log p(y_t | y_{<t}, x) ] 其中(x)是输入文本,(y_t)是目标文本的第(t)个词元。SFT的关键在于数据质量,需确保标注数据覆盖多样化的场景和任务。 直接偏好优化(DPO, Direct Preference Optimization) DPO通过直接优化...