1. 说一下 SFT、RLHF、DPO 的区别,线上项目里你会怎么选?答:SFT 是监督微调,核心是让模型学会“像人一样回答”,训练数据一般是 prompt-response 对,优点是简单直接、稳定、成本低,适合把基座模型先拉到业务可用水平。RLHF 是先做 SFT,再训练奖励模型,然后通过 PPO 之类的方法让模型朝着“人类更偏好”的方向优化。优点是能更细致地对齐人类偏好,缺点是链路长、训练复杂、容易不稳定。DPO 可以理解成不显式训练奖励模型、也不走复杂强化学习,而是直接利用偏好对做优化,训练上比 RLHF 更简单,效果在很多场景下也不错。如果是企业大模型应用,通常优先级往往是 SFT ...