首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
期待一个好结果吧
上海交通大学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(八):Transformer
Transformer常见问题与回答总结01 Transformer Encoder 有什么子层?(超参数一面)Encoder由六个相同层构成,每层都有两个子层:多头自注意力层和全连接的前馈神经网络层(Linear+relu+dropout+Linear)。使用残差连接和层归一化连接两个子层。02 写一下self-attention的公式(超参数一面)03 Transformer的优缺点优点:可并行独立于卷积和循环,完全依赖于attention处理全局依赖,解决长距离依赖问题性能强缺点:长度固定局部信息的获取不如RNN和CNN强:Transformer关注的全局关系,而RNN在计算过程中更关注局部,对距离更加敏感。04 Encoder端和Decoder端是如何进行交互的?Cross Self-attention,Decoder提供,Encoder提供。05 Transformer中为什么需要线性变换?分别是输入向量经过不同的线性变换矩阵计算得到。可以从正反两面分析线性变换的必要性:线性变换的好处:在部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。不用线性变换的坏处:在部分,如果不做线性变换,即X=Q=K,则会导致注意力矩阵是对称的,即,这样的效果明显是差的,比如“我是一个女孩”这句话,女孩对修饰我的重要性应该要高于我修饰女孩的重要性。06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?为了计算更快。加法形式是先加、后tanh、再和V矩阵相乘,相当于一个完整的隐层。在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。(论文P4有解释)在较小的时候,加法和乘法形式效果相近。但是随着增大,加法开始显著优于乘法。作者认为,增大导致乘法性能不佳的原因,是极大的点乘值将整个softmax推向梯度平缓区,使得收敛困难。于是选择scale,除。07 Transformer attention计算为什么要在softmax这一步之前除以(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)取决于Softmax的性质,如果softmax内计算的数过大或者过小,可能导致Softmax后的结果为0,导致梯度消失为什么是。假设Q、K中元素的值分布在[0,1],softmax的计算中,分母涉及了一次对所有位置的求和,整体的分布就会扩大到[0,]。08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?padding位置置为-1000,再对注意力矩阵进行相加。09 Transformer的残差结构及意义同resnet,解决梯度消失,防止过拟合10 Transformer为什么使用LN而不是BN?LN是针对每个样本序列进行归一化,没有样本间依赖,对一个序列的不同特征维度进行归一化。CV使用BN是因为认为通道维度的信息对cv方面有重要意义,如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一,且各batch之间的信息没有什么关系,因此只考虑句子内信息的归一化。11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?让输入序列只看到过去的信息,而看不到未来的信息。12 Transformer的并行化体现在哪里,Decoder可以做并行化嘛?Encoder的模块是串行的,但模块内的子模块多头注意力和前馈网络内部都是并行的,因为单词之间没有依赖关系。Decode引入sequence mask就是为了并行化训练,推理过程不并行13 Transformer计算量最大的部分是哪里(超参数二面、海信一面)多头注意力部分计算量最大。假设完成一次推理,(batch-size)=1, (seq-length,序列最大长度)=256, (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block,所需要的矩阵乘法的数量:总计:12 * (256 * 64 * 256 + 256 * 256 * 64)= 1亿次乘法除了矩阵乘法的运算外,还有除和函数的运算:除:计算量为=256*256函数:计算量为两个矩阵相乘的计算量: 假设矩阵A尺寸为(m,n),矩阵B尺寸为(n,k),则矩阵M和矩阵N相乘的计算量为m*n*k。权重矩阵K,Q,V的尺寸: 不考虑多头注意力的情况下均为(s,h);多头注意力时,默认12个头,故单头的尺寸为(s,1/12h)。14 Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?LSTM相比于单纯的前馈神经网络,首先具有理解文本的语序关系的能力(RNN)。除此之外,又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题,能够理解更长的上下文语义。可以并行化,所要的训练时间更短。15 Transformer处理篇章级的长文本的变体Transformer变体层出不穷,它们都长什么样? (qq.com)16 有哪些处理超长文本的方法(超参数二面)HIERARCHICAL基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类基本思想:对数据进行有重叠的分割,这样分割之后的每句句子直接仍保留了一定的关联信息。模型由两部分构成,第一部分是fine-tune后的BERT,第二部分是由LSTM+FC层组成的混合模型。即,BERT只用来提取出句子的表示,而真正在做分类的是LSTM+FC部分。具体流程:首先将长句子分割为多个小句子,如长200,重叠长度为50.将分割后的数据集传入BERT,分别取每个句子的[CLS]表示句子的embedding,将来自相同长句子的embedding拼接,作为长句子的向量表示。最后,将长句子的向量表示传入LSTM+FC部分进行分类。除此之外,第二部分还可以用Transformer。由于都是从notion笔记里面复制过来的,所以可能存在公式缺失之类的问题,欢迎指出~由于是个人笔记,可能有错误之处,欢迎指正~
点赞 30
评论 3
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
05-29 07:45
同济大学 ARM工程师
又一年毕业季, 聊聊这些年学嵌入式的体会吧
发这篇文章主要是针对大学刚接触嵌入式的同学。很多新手觉得嵌入式入门并不容易,牵扯的内容、知识点太多。像C语言基础是否掌握?汇编语言是否了解?电路原理学的怎么样,能看懂接单的电路图吗?AD软件学的怎么样,能画电路吗?本文主要包括以下内容:嵌入式的前景如何入门嵌入式。怎么才算是掌握一个单片机学习单片机的最快途径 嵌入式前景用一种说法,下一个时代是物联网的时代,以后的生活一定是智能的、万物互联的,所有的家电都会集中到一个终端上,通过这个终端就可以控制周围的一切,就像扎克伯格为自己家的设备写的一套系统一样,通过一个语音助手就控制整个家。这些智能设备都需要我们嵌入式开发者来做,把那些设备嵌入进程序,...
点赞
评论
收藏
分享
05-28 10:59
门头沟学院 设计
小厂实习一天开销
支出:房租:日均53r地铁:2.7+3.2=5.9r(北京地铁每月消费超过100打八折)早饭:0r(公司免费早餐,吃了一根烤肠,一个鸡蛋,一杯奶)奶茶:2.68r 两杯蜜雪冰城的茉莉奶绿午饭:0r(公司包午饭,周二吃的自助餐~)晚饭:10r(自己做的,土豆粉加了青菜、豆腐、西红柿、黄瓜)收入:180日薪结余:180-53-5.9-2.68-10=108.42r
记录实习开销
点赞
评论
收藏
分享
04-05 15:34
已编辑
火炉中学 前端工程师
穿JK去招聘会一下午拿了两个offer
之前我是不相信线下招聘的,直到广州之前三月琶洲有个大型招聘会,叫“百万英才汇南粤”,然后朋友劝我去看看,我就去了。当时还发烧生病,带了二十份黑白简历,投了15份,排队排得很辛苦,当场进行hr面聊了下,加了部分hr的微信,我去的基本是互联网摊位,因为我自己是程序员想找技术岗方向。后面就是二面,三面,hr面,审批,流程走了小半个月,目前是拿下了两个互联网公司的开发岗offer。补充一点重要信息:1⃣️有的企业过去扫码网申,比较无语2⃣️收走简历以后hr初筛要了联系方式,线上再要一版电子简历3⃣️有些企业挂出来岗位其实不招人,仅宣传为主4⃣️据hr说他们当天就收了几百上千份简历关于穿着我是想着需要穿西装正式一点,但是没有别的衣服就穿成JK过去了(建议参考面试穿搭)露脸照片已经换掉啦。😭希望各位大佬不要嘲笑我谢谢,我是落魄牛马姐我还纠结要不要去
不给进hr面就下海呗:
我是你见过最美的牛客女孩
牛客创作赏金赛
点赞
评论
收藏
分享
04-08 22:46
河南师范大学 Java
春招Java
一个面试约不到,佬们情况都咋样啊😭😭
脸不肥:
要不去掉照片?
点赞
评论
收藏
分享
今天 03:51
南京航空航天大学 硬件开发
为什么我的mos管驱动电路总是不听话?(上-基本原理总结)
小白噩梦就是mos管驱动电路了,在这个简单的小电路里处处充满了危险的散杂和寄生电容电感,稍有不慎就震荡,轻轻调一点又过阻尼了,跳到最后又发现振铃,得出结论板子画错了,回路电感太大了已经没救了哈哈哈。希望这篇文章能帮到大家一次性扫清所有的基本知识障碍,有时间再出一个常见的故障分析。
牛客创作赏金赛
写给毕业5年后的自己
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
上午拍毕业照,下午拍结婚照!牛友祝福我们吧!
8270
2
...
本科四年,我决定在即将毕业时转行
5624
3
...
以为走散了,命运却又把我们安排到一起
5389
4
...
28届学院本女生走java中~
4696
5
...
亲爱的公司,你好!
4686
6
...
没有人关心你在学校有多牛逼
2579
7
...
记录第二次面试 京控信息
2120
8
...
滴滴春招
2114
9
...
26届选手终于在五月底拿到offer啦!!!
2107
10
...
0实习
2037
创作者周榜
更多
正在热议
更多
#
写给毕业5年后的自己
#
5250次浏览
106人参与
#
机械制造秋招总结
#
50669次浏览
491人参与
#
华泰证券Fintech星战营
#
169698次浏览
196人参与
#
职场捅娄子大赛
#
324464次浏览
3297人参与
#
你的论文盲审过了没?
#
102663次浏览
1467人参与
#
一人一个landing小技巧
#
61482次浏览
972人参与
#
硬件应届生薪资是否普遍偏低?
#
69681次浏览
505人参与
#
国央企笔面经互助
#
129984次浏览
1082人参与
#
如果再来一次,你还会学硬件吗
#
122747次浏览
1400人参与
#
毕业后不工作的日子里我在做什么
#
172330次浏览
1522人参与
#
毕业季等于分手季吗
#
18142次浏览
227人参与
#
好好告别我的学生时代
#
49458次浏览
909人参与
#
美的求职进展汇总
#
274893次浏览
1955人参与
#
海信求职进展汇总
#
65455次浏览
361人参与
#
晒一下我的毕业照
#
35535次浏览
402人参与
#
大学最后一个寒假,我想……
#
38589次浏览
500人参与
#
记录实习开销
#
31817次浏览
214人参与
#
如何缓解求职过程中的焦虑?
#
8364次浏览
106人参与
#
HR问:你期望的薪资是多少?如何回答
#
40504次浏览
527人参与
#
如果今天是你的last day,你会怎么度过?
#
23080次浏览
199人参与
#
考公VS就业,你怎么选?
#
58275次浏览
389人参与
牛客网
牛客企业服务