字节大模型agent算法一面分享
给我面没招了,发点面经攒攒人品~
1.论文拷打
2.实习拷打
3.ppodpogrpodapo常规八股;gae,tderror,bt模型的理论都有问
4.reward hacking的原因以及解决方法5.rl训练中看哪些指标,loss异常升降如何分析
6.讲讲verl的结构,关键组件,如何魔改,遇到的问题
7.对于rlvr的训练,能否认为是一种sft;
8.kI散度的推导;kl散度放在loss和放在reward里的区别,作用以及适用场景
9.对于agent架构的了解
10.手撕:二叉树层序遍历;接雨水
1.论文拷打
2.实习拷打
3.ppodpogrpodapo常规八股;gae,tderror,bt模型的理论都有问
4.reward hacking的原因以及解决方法5.rl训练中看哪些指标,loss异常升降如何分析
6.讲讲verl的结构,关键组件,如何魔改,遇到的问题
7.对于rlvr的训练,能否认为是一种sft;
8.kI散度的推导;kl散度放在loss和放在reward里的区别,作用以及适用场景
9.对于agent架构的了解
10.手撕:二叉树层序遍历;接雨水
全部评论
现在还有春招嘛
相关推荐
04-19 00:12
门头沟学院 大数据开发工程师 点赞 评论 收藏
分享
点赞 评论 收藏
分享