大模型算法实习二面 携程
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.论文拷打
2.模型困惑度
3.项目使用了哪些评估指标?
4.项目的DPO数据如何构造,为什么?
5.项目中的Reward模型怎么训练的,为什么自己训?
6.GRPO过程中遇到过什么问题,怎么解决的?
7.介绍DPO,PPO,GRPO过程和区别
8.GRPO中奖励值可以怎么得到,有哪些方法?
9.手撕MHA
1.论文拷打
2.模型困惑度
3.项目使用了哪些评估指标?
4.项目的DPO数据如何构造,为什么?
5.项目中的Reward模型怎么训练的,为什么自己训?
6.GRPO过程中遇到过什么问题,怎么解决的?
7.介绍DPO,PPO,GRPO过程和区别
8.GRPO中奖励值可以怎么得到,有哪些方法?
9.手撕MHA
全部评论
相关推荐
03-20 18:49
西北工业大学 Java 点赞 评论 收藏
分享
查看4道真题和解析