日常实习-米哈游大模型算法面经分享
给我面没招了,发点面经攒攒人品~
1.LLM 常用的结构是什么?
2.说一下 Transformer 的整体结构
3.目前主流大模型最常用的位置编码是什么?
4.[代码题]写一下多头注意力机制的数学公式A代码/算法实现题,需现场手写
5. 公式中为什么要除以√ d _ k ?其对梯度消失或梯度爆炸有什么影响?
6. 在 Transformer 的 Encoder 和 Decoder 中,哪些部分是可以并行计算的,哪些不可以?
7. 除了 LoRA ,你还了解哪些微调方法?
8. 大模型训练通常使用什么损失函数
9. 在机器学习基础中,二分类问题、多分类问题以及回归问题分别使用什么损失函数?
10. 你了解哪些优化算法
11. 模型训练中出现过拟合的常用解决方案有哪些?
12. Dropout 在训练阶段和预测阶段的处理方式是否一致?为什么要这样做?
13. 大模型中的"复读机问题"重复生成是什么原因导致的?如何从解码策略或训练层面解决?
14. 幻觉问题产生的原因是什么?目前常用的工程解决方案有哪些?
1.LLM 常用的结构是什么?
2.说一下 Transformer 的整体结构
3.目前主流大模型最常用的位置编码是什么?
4.[代码题]写一下多头注意力机制的数学公式A代码/算法实现题,需现场手写
5. 公式中为什么要除以√ d _ k ?其对梯度消失或梯度爆炸有什么影响?
6. 在 Transformer 的 Encoder 和 Decoder 中,哪些部分是可以并行计算的,哪些不可以?
7. 除了 LoRA ,你还了解哪些微调方法?
8. 大模型训练通常使用什么损失函数
9. 在机器学习基础中,二分类问题、多分类问题以及回归问题分别使用什么损失函数?
10. 你了解哪些优化算法
11. 模型训练中出现过拟合的常用解决方案有哪些?
12. Dropout 在训练阶段和预测阶段的处理方式是否一致?为什么要这样做?
13. 大模型中的"复读机问题"重复生成是什么原因导致的?如何从解码策略或训练层面解决?
14. 幻觉问题产生的原因是什么?目前常用的工程解决方案有哪些?
全部评论

感觉问的还行啊

可以的,看着问的还行
相关推荐
查看9道真题和解析 点赞 评论 收藏
分享
04-16 15:00
上海师范大学 HRBP 点赞 评论 收藏
分享