1. Transformer 的自注意力机制、位置编码、梯度消失和梯度爆炸的解决方案答:自注意力机制的核心是让每个 token 在计算表示时都能和序列中其他 token 交互。给定输入 (X),先通过线性变换得到 (Q)、(K)、(V):然后计算注意力:这里除以 根号下dk 是为了防止点积过大导致 softmax 进入饱和区,影响梯度。多头注意力就是把表示拆成多个子空间并行计算,最后再拼接,能从不同角度学习依赖关系。位置编码是因为 Attention 本身不包含顺序信息,所以需要显式加入位置信息。经典做法是正余弦位置编码:现在也常用相对位置编码和 RoPE。梯度消失和梯度爆炸的解决方案包括:残...