昨天 09:22 华为_系统工程师

发布于上海

关注

第 4 题：注意力掩码（Attention Mask）在训练与推理中的使用

题目

什么是注意力掩码（Attention Mask）？在训练和推理中分别如何使用？

一、什么是注意力掩码？为什么需要？

注意力掩码是在算注意力权重之前，对 logits（即 $QK^\top$ 缩放后的 scores）做遮挡，让某些位置在 softmax 之后的权重变成 0，这样模型就不会从这些位置读取信息。

两种最常见用法：

Padding mask：把 padding 位置遮掉。batch 里序列长度不一时会 pad 到同一长度，pad 本身没有语义，若参与注意力会干扰模型，所以要对 pad 位置 mask。
Causal mask（因果掩码）：把未来位置遮掉。自回归语言模型在预测第 $t$ 个 token 时，只能看到 1 到 $t-1$ ，不能看到 $t$ 及以后，否则就“作弊”了。所以对 $j > i$ 的 $(i,j)$ 要 mask，保证位置 $i$ 只能注意 $j \le i$ 。

面试常问：“训练时为什么也要 causal mask？”——因为训练时虽然一次能看到整句，但我们要模拟“逐 token 生成”的分布，每个位置只能基于之前的 token 预测下一个，这样训练和推理一致，否则推理时模型没见过“看到未来”的情况会崩。

二、实现方式（必须能说清）

在 softmax 之前，对要屏蔽的位置在 scores 上加一个很大的负数（如 $-\infty$ 或 $-10^9$ ），softmax 后这些位置就接近 0：

\mathrm{scores}_{i,j} = \frac{Q_i K_j^\top}{\sqrt{d_k}} + M_{i,j},\qquad A = \mathrm{softmax}(\mathrm{scores})

$M_{i,j} = 0$ ：不遮挡，正常参与注意力。
$M_{i,j} = -\infty$ （或 $-10^9$ ）：遮挡，softmax 后权重≈0。

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。

全部评论

推荐最新楼层

昨天 11:15

University of Oxford 测试开发

衡泰技术测试校招面试全流程面经

杭州校招软件测试衡泰一面（20min）1. 自我介绍？2. 有没有投实习公司的校招笔试或者面试？3. 在实习公司的测试经历和影响深刻的项目？4. 实习过程中的测试流程？5. 设计测试用例阶段，是直接执行别人设计的？还是自己设计测试用例？6. 有没有这边已经测试通过了，但是现场测试又出现了问题？7. 如果出现上述的问题，那么下一步如何解决？8. 实习期间覆盖了多少给版本，版本迭代是什么样的？9. 测试报告包含那些内容？10. 加班情况怎么样？对加班情况能接受吗？11. 你觉得整个测试流程的过程中那块是做的不太好的，那个地方可以优化的？12. 设计测试用例，系统输入购买黄金的总金额，和黄金的单价，算最终可以买入的黄金的数量设计测试用例？需要考虑系统的实际功能，不要仅停留在界面上。比如这个功能是实现除法功能）;13. 职业规划是怎么样的？14. 有没有想进一步了解的？你了解的公司，你可以简单做一些介绍？衡泰二面（20min）1. 自我介绍？2. 详细介绍一下实习过程，自己负责的大概有那些功能，整个测试过程中的实习流程？3. 专业是计算机方向的，你在开发和测试的方向选择是什么样的？4. 倾向于测试和还是开发？自动化测试是应用在那些场景？5. 对于测试相关的理论基础？测试的方法，编写测试用例？6. 实习过程中从自身来说最大的收获是什么？7. 与导师的接触过程中，感觉导师是否有很大的帮助？感触？8. 看你获奖和技术挺多的，你对自身的要求是挺高的？9. 生活方面？生活与工作如何平衡？实习过程中也是这样的？10. 实习过程中加班程度怎么样？排斥加班吗？11. 哪里人？基于什么原因找工作到杭州？有没有兄弟姐妹？姐姐在哪？12. 实习公司在杭州还是武汉？实习公司安排面试吗？13. 反问14. 面试通过--&gt;offer交流会--&gt;一对一谈offer衡泰交流会(40min)谈一些后续流程

查看25道真题和解析

点赞评论收藏

分享

04-26 22:10

杭州电子科技大学大数据开发工程师

简历里的“技术难点”怎么写才够硬核？

写简历或准备助理工程师评定时，千万别干巴巴地罗列技术栈。与其写“熟悉Kafka和Doris”，不如具体化业务场景。比如，重点描述你是如何将1万5千个电池测试通道的海量时序数据，平滑同步到集中式Doris数仓的；或者在开发TRP测试流程管理系统时，是怎么攻克电池老化评估模块的架构瓶颈的。用具体的业务规模和真实的数据指标来背书，把踩坑经验转化为硬核的工程产出，这样写出来的项目总结绝对有杀伤力！

哪些AI项目值得做？

点赞评论收藏

分享

04-01 11:22

江西财经大学 Python

考研调剂迷茫中

本科双非科班，现在二战科软下岸了，今年24岁，目前调剂有两个选项：一是调剂双非保计算机专业，二是调剂南方科大生物与医药（但是导师是大模型方向的），想去大厂的话哪个更好呢，求大佬回复

点赞评论收藏

分享

04-22 15:57

嘉应学院 Java

上海逸迅信息科技有限公司-Java后端-base西安已OC

一共两轮（技术+hr）技术面1.先简单的自我介绍一下2.当时你们这个项目人员配备是怎么样的？我引出了项目的背景...3.讲一下你这段实习经历干了什么？4.你再介绍一下你这个项目吧？5.说一下redis常用的数据类型吧？6.比如我现在要实现一个场景如何保存页面的一个点击量和用户量，你会怎么设计？（场景设计题）我回答的是，在刚刚谈到的我提取出了一个关键信息就是无论一个用户访问了多少次同一个页面，都只算一次，那这个体现的其实就是唯一性，我会想到用set的数据类型进行存储，key放的是页面url，value放的是user_id。对于像页面点计量，其实我想到一个比较简单的，用string数据类型就行，因...

查看22道真题和解析

点赞评论收藏

分享

04-22 22:53

上海工程技术大学算法工程师

四月底依然没offer

四月底了还没offer，感觉没救了，转正也没消息这简历还有救吗，哎

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

华泰证券星战营

AI专项人才储备计划

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

AI网申助手

网申字段一键填写

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

全站热榜

更多

招银网络春招开奖了！

热聊中

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

2963次浏览 59人参与

# 你实习是赚钱了还是亏钱了？ #

118528次浏览 649人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

43305次浏览 496人参与

# 你会因为行情，降低找工作标准吗？ #

12115次浏览 131人参与

# 机械人晒出你的简历 #

191339次浏览 1101人参与

# 如果春招能重来，我会___ #

5362次浏览 66人参与

# 刚入职的你踩过哪些坑 #

60030次浏览 416人参与

# 实习想申请秋招offer，能不能argue薪资 #

255154次浏览 1323人参与

# 招银网络求职进展汇总 #

249896次浏览 1120人参与

# 腾讯云智研发工作体验 #

43059次浏览 174人参与

# 面试官拷打AI项目都会问什么？ #

2320次浏览 123人参与

# 想做Agent可以做哪些岗位？ #

2858次浏览 34人参与

# 除了线上，还能去哪些地方投简历 #

3950次浏览 43人参与

# 求职你最看重什么？ #

166339次浏览 907人参与

# 你觉得最好用的AI编程工具是_ #

1102次浏览 29人参与

# 暑假倒计时，你都干了些啥？ #

58918次浏览 314人参与

# 实习第一天，你在干什么 #

4514次浏览 36人参与

# 如何排解工作中的焦虑 #

329437次浏览 2827人参与

# 你和你的mentor相处模式是__ #

6335次浏览 50人参与

# 第一次面试 #

1135617次浏览 13934人参与

# 如何一边实习一边秋招 #

2234480次浏览 19215人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务