该题解所给的theta更新公式不正确,会导致动量机制失效,没有历史梯度积累。应修证为以下: 动量变量 v 用于累积过去的梯度方向,并在更新时加入当前梯度。 更新公式: v_t=βv_{t−1}+η∇J(θ) θ=θ−v_t ​其中,β 是动量衰减系数(momentum_decay),η 是学习率(learning_rate)。 优点: 动量能加速收敛,减少震荡。 符合标准的 SGDM(Stochastic Gradient Descent with Momentum) 算法。
点赞

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务