给我面没招了,发点面经攒攒人品~1.LLM 常用的结构是什么?2.说一下 Transformer 的整体结构3.目前主流大模型最常用的位置编码是什么?4.[代码题]写一下多头注意力机制的数学公式A代码/算法实现题,需现场手写5. 公式中为什么要除以√ d _ k ?其对梯度消失或梯度爆炸有什么影响?6. 在 Transformer 的 Encoder 和 Decoder 中,哪些部分是可以并行计算的,哪些不可以?7. 除了 LoRA ,你还了解哪些微调方法?8. 大模型训练通常使用什么损失函数9. 在机器学习基础中,二分类问题、多分类问题以及回归问题分别使用什么损失函数?10. 你了解哪些优化算法11. 模型训练中出现过拟合的常用解决方案有哪些?12. Dropout 在训练阶段和预测阶段的处理方式是否一致?为什么要这样做?13. 大模型中的"复读机问题"重复生成是什么原因导致的?如何从解码策略或训练层面解决?14. 幻觉问题产生的原因是什么?目前常用的工程解决方案有哪些?