首页 > 试题广场 >

Transformer 里因果注意力的 QKV 各从哪来

[问答题]
Transformer 里因果注意力的 Q/K/V 各从哪来?Mask 具体怎么实现。
QKV来自于输入数据的线性变换。
发表于 2025-10-24 00:10:33 回复(0)
transformer的因果注意力是为了避免出现模型在生成内容时"偷看"未来的内容。在自注意力层中,QKV都是来自输入数据的线性变换;在交叉注意力层中,Q来自自注意层的输出,KV来自Encoder的输出。Mask通过构造一个上三角为0或负无穷的矩阵实现
发表于 2025-09-21 18:02:56 回复(0)
q,k,v是通过一个批次中的每个token经过线性变换得到的,mask:1.是将进行softmax过后的结果值比较小的改为几乎为0的值,2.在进行结果预测时将未来的值进行掩盖,让是通过预测得来,而不是原始数据值
发表于 2025-09-11 19:32:23 回复(0)