FP16无法存储模型参数
累积的FP16梯度更新可能因精度不足而被舍入为零
FP32参数用于计算前向传播以提高速度
FP32参数仅在推理阶段使用
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题