一面 1. 问实习经历,用的哪个模型产生的数据,训练的哪个模型。2. 现在模型很多了,怎么去产生数据3. GRPO和DPO的区别,优劣4. 用sft+RL和纯用RL哪个效果更好,有没有实际的验证过下面问了几个场景题,估计是和业务相关5. 淘宝场景下智能机器人需要和用户、商家进行对话,收集的数据如何去训练reward model6. 可能会发现某些语句能解决商家和用户的问题,模型就一直产生这几条语句怎么办二面1. 介绍论文2. 介绍实习做的工作(因为是之前做的工作,如果放到现在该怎么去做)3. deepseek关于奖励的论文看没看过4. reward hacking是什么,该如何解决hr面1. 介绍一下学习方法2. 如何分配平时的时间3. 介绍论文和实习(可能hr不太懂,基本上是我单方面的输出)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。