使用梯度累积减少batch size
将模型参数、梯度和优化器状态分片存储到不同GPU上
使用模型剪枝减少参数量
仅在主节点保存完整模型
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题