字节大模型算法岗面经
1.介绍一下 DPO , PPO , GRPO
2.介绍一下奖励函数的坍缩现象和问题
3.离线强化学习和在线强化学习了解么?你的项目里是哪种?
4.代码:onehot100的2d接雨水
5. GRPO 公式?为什么公式里面 clip 了外面还要计算一次 mean 呢?
6.讲讲qwen2.5vl, llama
7.多目标优化奖励函数冲突,
8.介绍一下 QKV 的计算?
9.手撕MHA
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.介绍一下奖励函数的坍缩现象和问题
3.离线强化学习和在线强化学习了解么?你的项目里是哪种?
4.代码:onehot100的2d接雨水
5. GRPO 公式?为什么公式里面 clip 了外面还要计算一次 mean 呢?
6.讲讲qwen2.5vl, llama
7.多目标优化奖励函数冲突,
8.介绍一下 QKV 的计算?
9.手撕MHA
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
03-19 01:17
大连东软信息学院 人工智能
在打卡的大老虎很想潜...:你在找实习,没啥实习经历,技术栈放前面,项目多就分两页写,太紧凑了,项目你最多写两个,讲清楚就行,项目背景。用到的技术栈、亮点、难点如何解决,人工智能进面太难了,需求少。你可以加最新大模型的东西 点赞 评论 收藏
分享
查看12道真题和解析