e0se level
获赞
1
粉丝
1
关注
0
看过 TA
5
门头沟学院
2026
推荐算法
IP属地:广东
暂未填写个人简介
私信
关注
攒人品中,祝大家都能拿到满意的Offer!1.实习拷打2.项目拷打3. Lora 一般用在什么场景? 你对 Lora 初始化有做过不同尝试吗?有没有试过局部模型 lora,局部 full 全参。4. 你的 Agentic 训练平均输出 token 是多少? 有对单条 assistant 做压缩吗?5. 原生多模态是指什么? 听了你的 Paper 场景描述既然 MLLM 在 edited image 上表现不好,为什么不考虑预训练做你的场景? 可以讲一下你对原生多模态的理解吗?你觉得预训练引入 image token 会不会对整体训练造成损失?6. 我要手写一个输出端生成理解统一的模型,你会怎么设计(我没做过,但我说我会引入额外的结束 token,他说用原来的结束 token 就行)7. 你的paper 用了 gspo,这个和 grpo 有什么区别? 了解其他比如 DSPO 吗?8. 数据蒸馏特点是什么?和模型蒸馏区别是什么? 你为什么 paper 不采用模型蒸馏? (冷启动就是数据蒸馏)9. MOE 特点是什么? 你训练 MOE 和普通 SFT 有什么区别吗? 额外加哪些并行训练?手撕:1. DPO Loss2. MQA,写完后让我自己根据代码写一下 GQA 的分组
查看9道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务