总结:大模型算法面试手撕代码

1.位置编码
●绝对位置编码
●旋转位置编码( RoPE )
●长度外推技术
2.注意力机制
●Multi Head Attention ( MHA )
●Multi Query Attention ( MQA )· Group Query Attention ( GQA )
●Multi Head Latent Attention ( MLA )
3.归一化技术
●LayerNorm
●RMSNorm
●BatchNorm
4.前馈网络
●FFN ( ReLU )
●FFN ( GeLU )
●SwiGLU
5.损失函数与度量▼·交叉熵损失函数
●预训练损失函数·对比学习损失函数▼·信息论度量
●熵
●KL 散度
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务