首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
期待一个好结果吧
浙江大学附属中学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(八):Transformer
Transformer常见问题与回答总结01 Transformer Encoder 有什么子层?(超参数一面)Encoder由六个相同层构成,每层都有两个子层:多头自注意力层和全连接的前馈神经网络层(Linear+relu+dropout+Linear)。使用残差连接和层归一化连接两个子层。02 写一下self-attention的公式(超参数一面)03 Transformer的优缺点优点:可并行独立于卷积和循环,完全依赖于attention处理全局依赖,解决长距离依赖问题性能强缺点:长度固定局部信息的获取不如RNN和CNN强:Transformer关注的全局关系,而RNN在计算过程中更关注局部,对距离更加敏感。04 Encoder端和Decoder端是如何进行交互的?Cross Self-attention,Decoder提供,Encoder提供。05 Transformer中为什么需要线性变换?分别是输入向量经过不同的线性变换矩阵计算得到。可以从正反两面分析线性变换的必要性:线性变换的好处:在部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。不用线性变换的坏处:在部分,如果不做线性变换,即X=Q=K,则会导致注意力矩阵是对称的,即,这样的效果明显是差的,比如“我是一个女孩”这句话,女孩对修饰我的重要性应该要高于我修饰女孩的重要性。06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?为了计算更快。加法形式是先加、后tanh、再和V矩阵相乘,相当于一个完整的隐层。在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。(论文P4有解释)在较小的时候,加法和乘法形式效果相近。但是随着增大,加法开始显著优于乘法。作者认为,增大导致乘法性能不佳的原因,是极大的点乘值将整个softmax推向梯度平缓区,使得收敛困难。于是选择scale,除。07 Transformer attention计算为什么要在softmax这一步之前除以(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)取决于Softmax的性质,如果softmax内计算的数过大或者过小,可能导致Softmax后的结果为0,导致梯度消失为什么是。假设Q、K中元素的值分布在[0,1],softmax的计算中,分母涉及了一次对所有位置的求和,整体的分布就会扩大到[0,]。08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?padding位置置为-1000,再对注意力矩阵进行相加。09 Transformer的残差结构及意义同resnet,解决梯度消失,防止过拟合10 Transformer为什么使用LN而不是BN?LN是针对每个样本序列进行归一化,没有样本间依赖,对一个序列的不同特征维度进行归一化。CV使用BN是因为认为通道维度的信息对cv方面有重要意义,如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一,且各batch之间的信息没有什么关系,因此只考虑句子内信息的归一化。11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?让输入序列只看到过去的信息,而看不到未来的信息。12 Transformer的并行化体现在哪里,Decoder可以做并行化嘛?Encoder的模块是串行的,但模块内的子模块多头注意力和前馈网络内部都是并行的,因为单词之间没有依赖关系。Decode引入sequence mask就是为了并行化训练,推理过程不并行13 Transformer计算量最大的部分是哪里(超参数二面、海信一面)多头注意力部分计算量最大。假设完成一次推理,(batch-size)=1, (seq-length,序列最大长度)=256, (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block,所需要的矩阵乘法的数量:总计:12 * (256 * 64 * 256 + 256 * 256 * 64)= 1亿次乘法除了矩阵乘法的运算外,还有除和函数的运算:除:计算量为=256*256函数:计算量为两个矩阵相乘的计算量: 假设矩阵A尺寸为(m,n),矩阵B尺寸为(n,k),则矩阵M和矩阵N相乘的计算量为m*n*k。权重矩阵K,Q,V的尺寸: 不考虑多头注意力的情况下均为(s,h);多头注意力时,默认12个头,故单头的尺寸为(s,1/12h)。14 Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?LSTM相比于单纯的前馈神经网络,首先具有理解文本的语序关系的能力(RNN)。除此之外,又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题,能够理解更长的上下文语义。可以并行化,所要的训练时间更短。15 Transformer处理篇章级的长文本的变体Transformer变体层出不穷,它们都长什么样? (qq.com)16 有哪些处理超长文本的方法(超参数二面)HIERARCHICAL基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类基本思想:对数据进行有重叠的分割,这样分割之后的每句句子直接仍保留了一定的关联信息。模型由两部分构成,第一部分是fine-tune后的BERT,第二部分是由LSTM+FC层组成的混合模型。即,BERT只用来提取出句子的表示,而真正在做分类的是LSTM+FC部分。具体流程:首先将长句子分割为多个小句子,如长200,重叠长度为50.将分割后的数据集传入BERT,分别取每个句子的[CLS]表示句子的embedding,将来自相同长句子的embedding拼接,作为长句子的向量表示。最后,将长句子的向量表示传入LSTM+FC部分进行分类。除此之外,第二部分还可以用Transformer。由于都是从notion笔记里面复制过来的,所以可能存在公式缺失之类的问题,欢迎指出~由于是个人笔记,可能有错误之处,欢迎指正~
点赞 37
评论 3
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
2025-12-30 13:00
门头沟学院 游戏前端
转眼间已经即将2026年了,收下了今年最后一封感谢信,我想我应该还是不舍地向游戏行业说再见了。
楼主双非背景,在临近本科毕业时,犹犹豫豫中跟随大流选择考研,又担心自定目标太高考不上,最终选择考本校,于是现在我头顶双非本硕,求职时简历石沉大海是多数。但是我不后悔自己做的决定,或许是因为这个决定,我才有自己的时间去寻找自我(其实就是被导师放养所以有充足的时间)。我从迷茫地踏入研究生生涯,到现在坚定的目标,离不开24年年初一个偶然的念头,不经意间打开的Unity为我展开了新世界的大门。我现在仍然清晰的记着跟着youtube上一个做下楼梯类型游戏的视频教程,完成我的第一个游戏的感觉,时至今日仍然在激励着我去做游戏。一整个24年,我沉浸在开发个人Demo与GameJam中,经历过DDL前一晚的通宵...
游戏求职进展汇总
点赞
评论
收藏
分享
2025-12-30 16:22
CVTE_web后台开发工程师(准入职员工)
CVTE内推,CVTE内推码
CVTE面经分享记录,摘自优秀牛油4月投的驱动开发实习,现在给我面试...也算是第一个面试了,感觉有些不是常规八股。1.内核是如何启动驱动的2.内核是如何与用户层进行交互,(回答比如说系统调用,共享内存),举一个系统调用的例子,(回答read),具体是 怎么实现的,系统调用是怎么进入内核的,最终调用的是内核的什么接口。3.I2c和spi的优劣,分别几根线,作用4.Uart波特率有哪些,项目中串口传输(也可能是指I2C)的数据包是什么格式的,怎么确保不丢包,怎么确定接收到的 就是想要的数据5.Main函数和中断中如果都用到了同一个函数,有什么值得注意的,如果都用到一个全局变量那6.使...
点赞
评论
收藏
分享
2025-11-24 12:00
门头沟学院 Java
入职大厂两周,我在地铁上崩溃大哭
刚进大厂才两周,直接被干懵了。这节奏快得让人想哭,每天都被压得喘不过气。好不容易才挤进来,现在走人实在不甘心,但继续硬撑又觉得快要顶不住了。从传统行业跳过来,发现这儿根本没人带你。问谁都是零碎信息,拼不出个完整逻辑。老员工个个忙得飞起,没人有空搭理你,上来就让你自己硬扛。任务东一榔头西一棒子的,搞得人整天神经紧绷,连周末都缓不过来。真不知道还要熬多久才能适应,接下来该咋整啊……
glint~1108:
看来不止我一个人被这节奏整懵了。现在这环境确实没人会耐心带你,上来就直接扔活干。任务东一块西一块的,对整体业务又没概念,每次对接都跟猜谜似的,太折磨人了。
哪一瞬间让你觉得工作好累
点赞
评论
收藏
分享
2025-12-22 16:51
湖南大学 安卓
室友提前实习,回来之后就变了
记得那年大三的时候,我们都在玩,室友突然说要去一线城市实习,我们都笑他不好好把握没课的大学时光……结果第二年开春室友回来之后就变了一个人,游戏也不打了,整天就是抱着电脑刷题,做项目,闲下来的时候就给我们讲实习遇到的同事,还有好mt,他说现在很清楚知道自己想要什么,不考研不考公,想去大厂工作……最后我们都在考研的时候,他已经拿到了大疆的offer,有一次碰到他刚好一起进图书馆,我问他年薪多少,他不好意思的笑了笑,40w+,然后我两就分开了,他去了机房,我去了自习室……
在下小袋鼠:
40w 年薪暴击考研党,这差距太真实了
一人说一个提前实习的好处
点赞
评论
收藏
分享
2025-12-29 15:32
卓越里程_中台运营(准入职员工)
卓越教育内推,卓越教育内推码
卓越助教面试经验分享参加卓越小学助教首先是要笔试(线上的),选语数英三科中的两到三科进行笔试,有80分就算过。题目很简单,就是小学六年级的知识点。然后你把成绩截图并且简历发给招聘负责人,等待面试。面试(线上微信视频通话)1.进行一个简单的自我介绍,并说出你做助教的个人优势。个人优势:担任过班委,班级管理经验。有家教经验,懂得如何和小朋友相处。2.情景问答题从2-9中选一个数字,回答对应的问题。1.到了上课时间老师还没来,你应该怎么办?先和老师联系,了解情况。然后告诉学生情况,安抚大家的情绪,带领学生拿出复习资料和课本进行学习,等待老师到达。2.如果上课过程中有孩子嬉笑打闹,你应该怎么办?分成三...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
你会和mentor进行deeptalk吗?
2974
2
...
双非本2025秋招总结:65w+SSP三选一,最终还是“有鹅选鹅”|附面试心路历程
2253
3
...
学院本 末 211 硕勇闯 java 后端实习美团 oc 逆袭指南
1606
4
...
牛客运营们,我保证这是我最后一次消费烤肠了!
1430
5
...
27届学院本一段中厂一段中大厂实习,简历求锐评
1010
6
...
元旦前被裁员了
850
7
...
我的牛客年度报告
736
8
...
实习两周遭劝退,隔天就招新人,合理吗?
717
9
...
2025年牛客年度作者丨颁奖典礼✨
701
10
...
27前端已没招
701
创作者周榜
更多
正在热议
更多
#
实习没人带,苟住还是跑路?
#
16528次浏览
313人参与
#
AI时代,哪些岗位最容易被淘汰
#
25528次浏览
217人参与
#
我们是不是被“优绩主义”绑架了?
#
11661次浏览
322人参与
#
秋招被确诊为……
#
280023次浏览
1587人参与
#
牛客2025仙途报告
#
47425次浏览
527人参与
#
每个月的工资都是怎么分配的?
#
81521次浏览
662人参与
#
字节出了豆包coding模型
#
8231次浏览
70人参与
#
对2025年忏悔
#
7833次浏览
153人参与
#
春招前还要继续实习吗?
#
9646次浏览
110人参与
#
为了秋招你都做了哪些准备?
#
30009次浏览
528人参与
#
离家近房租贵VS离家远但房租低,怎么选
#
14223次浏览
132人参与
#
2025秋招体验点评
#
86280次浏览
719人参与
#
非技术2024笔面经
#
452348次浏览
4920人参与
#
一人说一家双休的公司
#
11343次浏览
127人参与
#
牛友的国庆旅行碎片
#
26516次浏览
128人参与
#
我的第一个1024节
#
17131次浏览
251人参与
#
职场新人生存指南
#
492179次浏览
9518人参与
#
面试官问过你最刁钻的问题是什么?
#
13466次浏览
122人参与
#
工作后会跟朋友渐行渐远吗
#
54435次浏览
395人参与
#
毕业租房也有小确幸
#
152836次浏览
4533人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务