首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
Transformer 里因果注意力的 QKV 各从哪来
[问答题]
Transformer 里因果注意力的 Q/K/V 各从哪来?Mask 具体怎么实现。
查看答案及解析
添加笔记
求解答(0)
邀请回答
收藏(4)
分享
纠错
3个回答
添加回答
0
懵懵的萌新
QKV来自于输入数据的线性变换。
发表于 2025-10-24 00:10:33
回复(0)
0
在考古的三文鱼很糊涂
transformer的因果注意力是为了避免出现模型在生成内容时"偷看"未来的内容。在自注意力层中,QKV都是来自输入数据的线性变换;在交叉注意力层中,Q来自自注意层的输出,KV来自Encoder的输出。Mask通过构造一个上三角为0或负无穷的矩阵实现
发表于 2025-09-21 18:02:56
回复(0)
0
牛客936040679号
q,k,v是通过一个批次中的每个token经过线性变换得到的,mask:1.是将进行softmax过后的结果值比较小的改为几乎为0的值,2.在进行结果预测时将未来的值进行掩盖,让是通过预测得来,而不是原始数据值
发表于 2025-09-11 19:32:23
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
机器学习应用-牛客面经八股
难度:
3条回答
4收藏
125浏览
热门推荐
相关试题
挑一次你觉得最有价值的“特征/损失...
评论
(0)
来自
机器学习应用-牛客面经八股
模型上线之后,评估闭环怎么搭?灰度...
评论
(0)
来自
机器学习应用-牛客面经八股
Scaled Dot‑Produc...
评论
(2)
来自
机器学习应用-牛客面经八股
你实际用过哪些学习率策略?为什么要...
评论
(0)
来自
机器学习应用-牛客面经八股
分类和回归你最常用哪些损失?你更偏...
评论
(1)
来自
机器学习应用-牛客面经八股
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题