面试题简述训练大模型经常会遇到梯度爆炸和消失,你知道有哪些改善方法吗?softmax会不会导致梯度爆炸或消失?transformer的设计里有哪些方法用于解决这个问题?面试官想听的1、L2 clipping、梯度缩放、初始化模块;2、softmax为什么会导致梯度爆炸;3、了解 DeepNet init、RMSNorm 等提升稳定性的方法。面试回答举例梯度爆炸一般用梯度剪裁解决,梯度消失可以通过残差连接 + 合理初始化 + LayerNorm 减轻。softmax 本质上确实会带来梯度集中到一个token上,从而导致梯度消失,尤其是 logits 非常大时。详细内容可跳转该链接查看详情:htt...