继续来分享下之前的面经~欢迎友好讨论,信息共享1.请详细介绍一下Transformer的架构,包括Encoder和Decoder的区别?2.解释LayerNorm和BatchNorm的区别,为什么Transformer中使用LayerNorm?3.多头注意力机制的原理是什么?为什么要用多头而不是单头?4.LLaMA的结构有什么特点?与标准Transformer有什么不同?5.什么是位置编码?绝对位置编码和相对位置编码的区别是什么?6.大模型训练中的灾难性遗忘是什么?有哪些解决方法?7.大模型训练中数据量和数据质量哪个更重要?为什么?8.DeepFM的原理是什么?FM部分如何降低计算复杂度?9.你在项目中遇到过拟合的情况吗?是如何解决的?10.手撕代码:重排链表(LeetCode 143)