算法面经:Transformer为什么要除以根号d?

🤔 这道题是经典中的经典,超容易被问到,如果答不出来是很减分的!作者参加过的暑期实习和秋招的面试中这道题考了得有7次以上了(大多数为一面考察的)。每当面试官问到Transformer相关的八股,这道题几乎是必问的。

📖 此题的答案是:由于Query和Key的点积操作使得结果方差变大d倍,导致模型容易出现梯度消失现象,因此需要除以根号d减小方差,避免梯度消失问题。详细的分析如图1所示。

📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。

#秋招#  #算法岗面经#  #深度学习#  #大模型#
全部评论
字节内推码自取:JNFKRHG
点赞 回复 分享
发布于 08-06 21:53 上海
点赞 回复 分享
发布于 07-30 11:10 北京
{"pureText":"","imgs":[{"height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010167/ADD3F44118F4B21385C0EAB938AEC4A7","alt":"9CYT3oIpeRxHUANAna05rws3292acKUn.jpg","width":"1440.0"},{"alt":"QJ0w27ez2edaSDeNYy62i4ny6apa6S2c.jpg","width":"1440.0","height":"3114.0","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010138/8BC90C8380BB34B279156DBCC3A5FAB6"},{"width":"1440.0","height":"2511.0","alt":"dq56P4NSXKiACTGQdHpfCYwY3OZ985St.jpg","src":"https://uploadfiles.nowcoder.com/images/20250730/101779315_1753842010090/B98A43F45E24A992B5B6804C7D8ED653"}]}
点赞 回复 分享
发布于 07-30 10:20 上海

相关推荐

08-26 16:41
人工智能
点赞 评论 收藏
分享
两轮面试,还是偏简单的,AI方向非agent,然后就hr联系发实习offer了其实基本上都是八股,一面比较重视python基础和项目,二面就是问几个大模型的八股然后和面试官聊天。下面是我记得的问题一面:自我介绍(竞赛经历+项目经历+实习经历)Transformer的架构是怎样的?Encoder和Decoder的多头注意力机制有何区别?左连接(Left join)和内连接(Inner join)的区别是什么?请讲一讲CoT你对设计提示词设计有什么看法?请讲解一下随机森林算法。(项目)请讲解一下GPT大模型的发展历程前面答的太快了,有一些错,不过面试官很好,会引导你圆回去。后面我看着像凑时间问的,比较偏python八股。Python中有哪些数据类型?Docker有哪些常用命令?Python中的单下划线和双下划线有什么含义和区别?Python中的 *args 和 **kwargs 分别表示什么意思,有何作用?元组和列表的区别是什么?指针传递和值传递有什么区别?深拷贝和浅拷贝(Shallow Copy)的区别是什么?二面:1.自我介绍2.bert和gpt模型的区别在哪里3.解释下GIL锁4.请你阐述熟知的位置编码5.你上一家实习经历情况也是比较顺利的聊完了,好像都是部门同事面。实习:同事学历都好高;早上9点上班18:00下班,弹性半小时,午休一小时,实习150/天,base杭州,不过最近政策不给实习生配电脑、显示器
查看20道真题和解析
点赞 评论 收藏
分享
评论
3
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务