百度大模型算法面经
三面主要以聊项目为主,无手撕
DPO的原理,损失函数如何计算?
DPO相比于PPO的优势?
在不同的项目中,都使用了DPO,有哪些区别?
如何分析训练结果并改进训练数据的构造方式?
多模态的DPO的训练是如何做的,如果构造数据?
DPO的原理,损失函数如何计算?
DPO相比于PPO的优势?
在不同的项目中,都使用了DPO,有哪些区别?
如何分析训练结果并改进训练数据的构造方式?
多模态的DPO的训练是如何做的,如果构造数据?
全部评论
相关推荐

点赞 评论 收藏
分享