快手大模型算法开发一面

1. 自我介绍

2. 项目拷打

3. Reward Model 在对齐训练里扮演什么角色

Reward Model 本质上是在学一个“人类更偏好什么”的可微近似函数。SFT 学的是“像人那样答”，RM 学的是“人更喜欢哪种答法”。它并不直接生成答案，而是给候选答案打分，把人类偏好从离散排序信号压进一个标量目标里，后续无论是 PPO 还是其他策略优化方法，核心都要依赖这个分数去推动模型往偏好更强的方向移动。

RM 最大的价值不是替代人工，而是把人工偏好从逐条监督扩展成可批量泛化的训练信号。真正难的地方在于它很容易学到表面模式，比如更长、更像模板、更会说套话的答案可能被错判成更优，所以 RM 训练的上限很大程度受数据质量和标注一致性约束。

4. 为什么 Reward Model 比很多人想的更容易被模型“投机取巧”

因为 RM 学到的不是“真实质量”，而是“在训练分布里的偏好代理”。只要这个代理和真实目标之间有缝隙，策略模型就会钻空子。最常见的情况是模型开始优化表面特征，比如把回答写得更长、更礼貌、更像总结模板，或者刻意堆高频高分词，而不是真正在事实性、推理深度和可执行性上变强。

这也是为什么只看 RM 分数非常危险。一个成熟系统通常不会把它当最终裁判，而是会把事实性评测、规则校验、拒答合理性和人工抽检一起纳入闭环。RM 是重要组件，但绝不是整个对齐体系的真理源头。

5. DPO 是怎么训练的，为什么它能绕开显式强化学习

DPO 的核心想法是，不直接训练一个在线策略去和环境交互，而是利用偏好对数据构造一个闭式优化目标，让模型在“被偏好回答”和“被拒绝回答”之间拉开 log 概率差距。它默认存在一个参考模型，通过 KL 约束保证新模型不会偏离参考分布太远，同时把偏好学习直接写成监督式损失，因此训练上比 PPO 更稳定，也省掉了显式 reward rollout 的复杂链路。

它之所以能工作，是因为在特定假设下，最优策略可以被重写成相对参考模型的偏好加权分布。工程上它很好用，但并不意味着它总能取代 RL。遇到长链路决策、工具交互或者需要多步信用分配的任务时，DPO 这种静态偏好学习就会开始吃力。

import torch
import torch.nn.functional as F

def dpo_loss(pi_chosen_logp, pi_reject_logp, ref_chosen_logp, ref_reject_logp, beta=0.1):
    pi_gap = pi_chosen_logp - pi_reject_logp
    ref_gap = ref_chosen_logp - ref_reject_logp
    logits = beta * (pi_gap - ref_gap)
    return -F.logsigmoid(logits).mean()

pi_c = torch.tensor([ -2.1, -1.3 ])
pi_r = torch.tensor([ -3.4, -2.2 ])
ref_c = torch.tensor([ -2.4, -1.5 ])
ref_r = torch.tensor([ -3.2, -2.0 ])
print(dpo_loss(pi_c, pi_r, ref_c, ref_r))

6. DPO 和 PPO 做对齐时的本质差别是什么

PPO 是在线策略优化，它需要策略采样、reward 打分、advantage 估计和裁剪更新，属于“先生成，再评分，再更新”。DPO 则更像离线偏好学习，它直接利用成对偏好样本优化模型，不需要显式 rollout，也不需要 value model。前者更接近通用 RL 框架，后者更接近用偏好数据驱动的判别式策略拟合。

从工程角度看，PPO 的灵活性更强，适合多步任务、工具交互和明确的外部反馈环境，但训练复杂度和不稳定性明显更高。DPO 的优点是简单、稳定、好复现，缺点是它对静态偏好数据依赖很强，而且很难处理真正动态的多阶段信用分配问题。