字节大模型算法实习一面 70min

1.实习拷打
2.项目拷打

3.八股:
1.GPRO 相比 PPO 的优缺点是什么?
2.PPO 是如何计算优势的?GAE的原理?
3.有了解过除了 GRPO 的其他强化学习训练方法么?
4.DAPO 改进了什么地方?
5.你觉得 VERL 框架如果用 DAPO 该改哪些地方?
6.DPO的原理是什么?如何推导出来的?
7.重要性采样的原理?
8.SGD、Adam、AdamW 的区别和改进
9.你平常使用什么编程语言?Python 精通么?
10.Python 的**是干什么的,**kwargs 是干嘛的,@字符是干嘛的?装饰器的原理是什么?
11.平时用什么 AI编程软件?有对比过 cursor里面不同模型的效果么?
12.你觉得大模型未来会朝着哪里发展?
13.你做的这些项目,如果回过头来,哪个最想迭代改善?
代码:Leetcode718 最长重复子数组
全部评论

相关推荐

评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务