陌陌大模型

transformer 架构

transformer 架构 时间复杂度和 空间复杂度

旋转位置编码和原来的位置编码的优点

各种层参数量

除模型占的显存外,中间结果,梯度 占显存的情况

强化学习

pytorch 手写 self-attention (没写出来)

NF16 和 BF 16
全部评论

相关推荐

评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务