第 4 题:注意力掩码(Attention Mask)在训练与推理中的使用

题目

什么是注意力掩码(Attention Mask)?在训练和推理中分别如何使用?

一、什么是注意力掩码?为什么需要?

注意力掩码是在算注意力权重之前,对 logits(即 缩放后的 scores)做遮挡,让某些位置在 softmax 之后的权重变成 0,这样模型就不会从这些位置读取信息

两种最常见用法:

  • Padding mask:把 padding 位置遮掉。batch 里序列长度不一时会 pad 到同一长度,pad 本身没有语义,若参与注意力会干扰模型,所以要对 pad 位置 mask。
  • Causal mask(因果掩码):把未来位置遮掉。自回归语言模型在预测第 个 token 时,只能看到 1 到 ,不能看到 及以后,否则就“作弊”了。所以对 要 mask,保证位置 只能注意

面试常问:“训练时为什么也要 causal mask?”——因为训练时虽然一次能看到整句,但我们要模拟“逐 token 生成”的分布,每个位置只能基于之前的 token 预测下一个,这样训练和推理一致,否则推理时模型没见过“看到未来”的情况会崩。

二、实现方式(必须能说清)

在 softmax 之前,对要屏蔽的位置在 scores 上加一个很大的负数(如 ),softmax 后这些位置就接近 0:

  • :不遮挡,正常参与注意力。
  • (或 ):遮挡,softmax 后权重≈0。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

杭州校招软件测试衡泰一面(20min)1. 自我介绍?2. 有没有投实习公司的校招笔试或者面试?3. 在实习公司的测试经历和影响深刻的项目?4. 实习过程中的测试流程?5. 设计测试用例阶段,是直接执行别人设计的?还是自己设计测试用例?6. 有没有这边已经测试通过了,但是现场测试又出现了问题?7. 如果出现上述的问题,那么下一步如何解决?8. 实习期间覆盖了多少给版本,版本迭代是什么样的?9. 测试报告包含那些内容?10. 加班情况怎么样?对加班情况能接受吗?11. 你觉得整个测试流程的过程中那块是做的不太好的,那个地方可以优化的?12. 设计测试用例,系统输入购买黄金的总金额,和黄金的单价,算最终可以买入的黄金的数量设计测试用例?需要考虑系统的实际功能,不要仅停留在界面上。比如这个功能是实现除法功能);13. 职业规划是怎么样的?14. 有没有想进一步了解的?你了解的公司,你可以简单做一些介绍?衡泰二面(20min)1. 自我介绍?2. 详细介绍一下实习过程,自己负责的大概有那些功能,整个测试过程中的实习流程?3. 专业是计算机方向的,你在开发和测试的方向选择是什么样的?4. 倾向于测试和还是开发?自动化测试是应用在那些场景?5. 对于测试相关的理论基础?测试的方法,编写测试用例?6. 实习过程中从自身来说最大的收获是什么?7. 与导师的接触过程中,感觉导师是否有很大的帮助?感触?8. 看你获奖和技术挺多的,你对自身的要求是挺高的?9. 生活方面?生活与工作如何平衡?实习过程中也是这样的?10. 实习过程中加班程度怎么样?排斥加班吗?11. 哪里人?基于什么原因找工作到杭州?有没有兄弟姐妹?姐姐在哪?12. 实习公司在杭州还是武汉?实习公司安排面试吗?13. 反问14. 面试通过-->offer交流会-->一对一谈offer衡泰交流会(40min)谈一些后续流程
查看25道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务