1. 大语言模型的 RLHF 训练流程是什么,它存在哪些潜在风险RLHF 一般分三步。第一步是 SFT,用高质量指令数据把基座模型调成能听懂任务、按格式回答的模型。第二步是训练奖励模型,把人工偏好数据整理成 chosen 和 rejected 形式,让奖励模型学会判断两个回答哪个更好。第三步是强化学习优化,最经典的是 PPO,让当前策略在奖励更高的方向上更新,同时用 KL 约束避免模型偏离初始策略太远。它的风险主要在三个地方。第一,奖励模型可能学偏,模型最后学到的是“讨好奖励模型”而不是真正更有帮助。第二,强化学习阶段如果约束不够,模型容易出现 reward hacking,看起来分数高,但真...