腾讯大模型算法校招凉经

攒人品中,祝大家都能拿到满意的Offer!
1.实习拷打
2.项目拷打
3. Lora 一般用在什么场景? 你对 Lora 初始化有做过不同尝试吗?有没有试过局部模型 lora,局部 full 全参。
4. 你的 Agentic 训练平均输出 token 是多少? 有对单条 assistant 做压缩吗?
5. 原生多模态是指什么? 听了你的 Paper 场景描述既然 MLLM 在 edited image 上表现不好,为什么不考虑预训练做你的场景? 可以讲一下你对原生多模态的理解吗?你觉得预训练引入 image token 会不会对整体训练造成损失?
6. 我要手写一个输出端生成理解统一的模型,你会怎么设计(我没做过,但我说我会引入额外的结束 token,他说用原来的结束 token 就行)
7. 你的paper 用了 gspo,这个和 grpo 有什么区别? 了解其他比如 DSPO 吗?
8. 数据蒸馏特点是什么?和模型蒸馏区别是什么? 你为什么 paper 不采用模型蒸馏? (冷启动就是数据蒸馏)
9. MOE 特点是什么? 你训练 MOE 和普通 SFT 有什么区别吗? 额外加哪些并行训练?

手撕:
1. DPO Loss
2. MQA,写完后让我自己根据代码写一下 GQA 的分组
全部评论

相关推荐

评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务