Transformer 里因果注意力的 QKV 各从哪来

[问答题]

Transformer 里因果注意力的 Q/K/V 各从哪来？Mask 具体怎么实现。

查看答案及解析

懵懵的萌新

QKV来自于输入数据的线性变换。

发表于 2025-10-24 00:10:33 回复(0)

在考古的三文鱼很糊涂

transformer的因果注意力是为了避免出现模型在生成内容时"偷看"未来的内容。在自注意力层中，QKV都是来自输入数据的线性变换；在交叉注意力层中，Q来自自注意层的输出，KV来自Encoder的输出。Mask通过构造一个上三角为0或负无穷的矩阵实现

发表于 2025-09-21 18:02:56 回复(0)

牛客936040679号

q，k,v是通过一个批次中的每个token经过线性变换得到的，mask：1.是将进行softmax过后的结果值比较小的改为几乎为0的值，2.在进行结果预测时将未来的值进行掩盖，让是通过预测得来，而不是原始数据值

发表于 2025-09-11 19:32:23 回复(0)

提交观点

问题信息

来自：机器学习应用-牛客面经八股

难度：

3条回答 4收藏 125浏览

扫一扫，把题目装进口袋