1. 自我介绍2. 为什么要用 DPO,你的 DPO 数据从哪里来DPO 主要用来做偏好对齐,让模型在两个候选答案中更倾向于选择符合业务偏好的回答,而不是只学会复现标准答案。SFT 解决的是“会不会做”,DPO 更偏向解决“更喜欢哪种做法”。数据一般不是直接从线上拿一问一答就能用,而是先用上一版 checkpoint 对同一批 prompt 做多候选采样,再经过规则、模型评审和人工复核构造 chosen/rejected。这里不用商业 API 蒸馏正反样本,是因为不同模型的输出分布和本地模型不一致,直接蒸馏会让偏好边界偏到外部模型的风格上,最后 DPO 学到的是别人的分布,不一定能提升当前模型...