陌陌大模型
transformer 架构
transformer 架构 时间复杂度和 空间复杂度
旋转位置编码和原来的位置编码的优点
各种层参数量
除模型占的显存外,中间结果,梯度 占显存的情况
强化学习
pytorch 手写 self-attention (没写出来)
NF16 和 BF 16
transformer 架构 时间复杂度和 空间复杂度
旋转位置编码和原来的位置编码的优点
各种层参数量
除模型占的显存外,中间结果,梯度 占显存的情况
强化学习
pytorch 手写 self-attention (没写出来)
NF16 和 BF 16
全部评论
相关推荐