1. 自我介绍2. PPO、TRPO、DPO 分别是什么,它们的核心差异在哪TRPO 的出发点是让策略更新别跨太大步,它通过约束新旧策略的 KL 距离,把优化问题写成一个带信赖域的约束优化,所以理论上比较稳,但实现复杂、计算成本也高。PPO 可以看成是 TRPO 的工程化近似,它不直接解复杂约束问题,而是通过 clip 或 penalty 的方式,限制策略更新过猛,因此在实践里更常用。DPO 和前两者不太一样,它不是传统在线 RL,而是直接从偏好对里学习一个“更偏向 chosen、压低 rejected”的目标,相当于把 reward optimization 吸收到一个更简单的监督目标中。P...