陌陌大模型

transformer 架构

transformer 架构 时间复杂度和 空间复杂度

旋转位置编码和原来的位置编码的优点

各种层参数量

除模型占的显存外,中间结果,梯度 占显存的情况

强化学习

pytorch 手写 self-attention (没写出来)

NF16 和 BF 16
全部评论

相关推荐

查看9道真题和解析 简历中的项目经历要怎么写
点赞 评论 收藏
分享
评论
点赞
5
分享

创作者周榜

更多
牛客网
牛客企业服务