总结:大模型算法面试手撕代码
1.位置编码
●绝对位置编码
●旋转位置编码( RoPE )
●长度外推技术
2.注意力机制
●Multi Head Attention ( MHA )
●Multi Query Attention ( MQA )· Group Query Attention ( GQA )
●Multi Head Latent Attention ( MLA )
3.归一化技术
●LayerNorm
●RMSNorm
●BatchNorm
4.前馈网络
●FFN ( ReLU )
●FFN ( GeLU )
●SwiGLU
5.损失函数与度量▼·交叉熵损失函数
●预训练损失函数·对比学习损失函数▼·信息论度量
●熵
●KL 散度
●绝对位置编码
●旋转位置编码( RoPE )
●长度外推技术
2.注意力机制
●Multi Head Attention ( MHA )
●Multi Query Attention ( MQA )· Group Query Attention ( GQA )
●Multi Head Latent Attention ( MLA )
3.归一化技术
●LayerNorm
●RMSNorm
●BatchNorm
4.前馈网络
●FFN ( ReLU )
●FFN ( GeLU )
●SwiGLU
5.损失函数与度量▼·交叉熵损失函数
●预训练损失函数·对比学习损失函数▼·信息论度量
●熵
●KL 散度
全部评论
相关推荐

点赞 评论 收藏
分享
09-09 12:55
门头沟学院 产品经理 点赞 评论 收藏
分享