转正实习-阿里高德AI应用算法一面
发一下问题给大家参考,攒攒人品!
1.实习介绍
2.训练奖励模型时的损失函数
3.self-certainty的约束具体做法
4.KL散度公式
5.KL散度和交叉熵的关系
6.GRPO中的各类惩罚怎么设定的
7.RLAIF的prompt最初是怎么设定的
8.RLAIF的迭代过程
9.迭代时有哪些改进点
10.觉得项目里最难的点是什么
11.手撕:有序数组的平方
1.实习介绍
2.训练奖励模型时的损失函数
3.self-certainty的约束具体做法
4.KL散度公式
5.KL散度和交叉熵的关系
6.GRPO中的各类惩罚怎么设定的
7.RLAIF的prompt最初是怎么设定的
8.RLAIF的迭代过程
9.迭代时有哪些改进点
10.觉得项目里最难的点是什么
11.手撕:有序数组的平方
全部评论
拼多多招27届实习生啦 https://careers.pddglobalhr.com/campus/intern/detail?t=dRvUVvcTiA
相关推荐