腾讯混元多模态一面

1️⃣自我介绍
2️⃣实习项目拷打
3️⃣科研拷打
4️⃣八股
Grpo 原理,公式,与 ppo 的区别
1.介绍其他的一些强化学习方法
2.介绍 Rope
3.为什么大模型用 decode - only 架构,为什么不用 encode - decode
4.介绍 qwen -2.5的结构
5.Sft 训练 qwen - vl -7b模型占用的显存是多少,vit 和映射层占多少显存
6.训练的时候爆显存了怎么解决
7.介绍一下 deepspeed
5️⃣手撕
1.连续数组最大和
2.搜索旋转数组
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
5
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务