注重基础:高德大模型实习算法岗面经

1. 介绍一下项目
2. 多头注意力机制的计算复杂度是多少?
3.LoRA 的核心思想是什么?
4. GRPO 训练时 KL 散度控制得怎么样?5. SFT 阶段如何避免对padding token 计算 loss ?
6.训练 SFT 模型时 loss 出现剧烈震荡,你是如何诊断并解决的?
7. Transformer 中为何使用 LayerNorm 而非 BatchNorm ?
8. Transformer 里LayerNorm 放在 Attention 前还是后?有什么区别?
9. logprobs 在一致性奖励中起什么作用?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
好的,先记下了
点赞 回复 分享
发布于 2025-12-28 21:47 广东

相关推荐

脑袋锈住了:你这算啥,哥们中科院中强所硕士,本科211,叫我去干分拣,时薪20
点赞 评论 收藏
分享
评论
2
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务