大模型算法实习二面 携程

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.论文拷打
2.模型困惑度
3.项目使用了哪些评估指标?
4.项目的DPO数据如何构造,为什么?
5.项目中的Reward模型怎么训练的,为什么自己训?
6.GRPO过程中遇到过什么问题,怎么解决的?
7.介绍DPO,PPO,GRPO过程和区别
8.GRPO中奖励值可以怎么得到,有哪些方法?
9.手撕MHA
全部评论

相关推荐

03-19 21:39
门头沟学院 Java
Data_Seven:6 他说的 全是我的词儿啊
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务