大模型手撕代码合集

1. Tokenizer 
从零手撕 BPE 训练 Tokenizer ·从零手撕 Tokenizer 解码
2.位置编码
绝对位置编码
旋转位置编码( RoPE )
长度外推技术
3.注意力机制
Multi Head Attention ( MHA )
Multi Query Attention ( MQA )· Group Query Attention ( GQA )
Multi Head Latent Attention ( MLA )
4.前馈网络
FFN ( ReLU )
FFN ( GeLU )
SwiGLU
 5.归一化技术
LayerNorm
RMSNorm
BatchNorm
6.损失函数与度量
交叉熵损失函数
对比学习损失函数
信息论度量
7.其他
用 Numpy 从零实现 MLP 反向传播●用 Numpy 实现 K - means 算法
实现 Transformer Encoder 
 Safe Softmax
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务