第 14 题:梯度累积如何解决显存不足 题目 什么是梯度累积?它如何解决显存不足问题? 一、什么是梯度累积? 梯度累积(Gradient Accumulation) 指把一次“逻辑上的大 batch”拆成多个小 mini-batch 依次前向、反向,但不立即更新参数,而是把每次得到的梯度累加(或平均),在累加够若干步后再用累加/平均后的梯度做一次参数更新。 等价于:用多个小 batch 的梯度平均,模拟“大 batch”的梯度,再更新一次。 二、如何缓解显存不足? 显存瓶颈:大 batch 需要同时存更多激活和梯度,容易 OOM。 做法:batch size 减半(或缩小为 1/k),每次只...