首页 > 试题广场 >

在FSDP(Fully Sharded Data Paral

[单选题]
在FSDP(Fully Sharded Data Parallelism)中,相比DDP,其主要的显存节省来自于什么?
  • 使用梯度累积减少batch size
  • 将模型参数、梯度和优化器状态分片存储到不同GPU上
  • 使用模型剪枝减少参数量
  • 仅在主节点保存完整模型

这道题你会答吗?花几分钟告诉大家答案吧!