字节大模型agent算法一面分享

给我面没招了,发点面经攒攒人品~
1.论文拷打
2.实习拷打
3.ppodpogrpodapo常规八股;gae,tderror,bt模型的理论都有问
4.reward hacking的原因以及解决方法5.rl训练中看哪些指标,loss异常升降如何分析
6.讲讲verl的结构,关键组件,如何魔改,遇到的问题
7.对于rlvr的训练,能否认为是一种sft;
8.kI散度的推导;kl散度放在loss和放在reward里的区别,作用以及适用场景
9.对于agent架构的了解
10.手撕:二叉树层序遍历;接雨水
全部评论
现在还有春招嘛
点赞 回复 分享
发布于 昨天 22:26 广东

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务