07-16 09:45 门头沟学院智能驾驶系统工程师发布于北京

关注

互联网大厂算法岗深度学习八股文——Transformer高频考点系列（二）

在互联网大厂算法岗的面试环节中，深度学习相关八股文的重要性早已无需多言。算法岗面试八股文看似是一个大家"背答案，对于记忆力的比拼"，但实际上却是互联网大厂面试官考察候选人知识体系完整性和基础知识掌握扎实程度最直接、有效的方式！因此八股文在面试中的重要性不言而喻。

大家在求职过程中会发现，当下很多大厂算法岗面试八股文资料杂乱无章，不成体系，需要花费大量的时间和精力进行整理，耽误求职复习进度。本深度学习算法岗求职八股文专栏将互联网大厂面试中的高频八股知识点进行了汇总和梳理，并且附带参考答案。助力大家在求职面试前打下扎实的基础功底，面试过程中游刃有余！

本文是《深度学习算法岗求职八股文专栏》中Transformer高频考点系列的第二篇文章，整理了面试过程中Transformer的高频考点，并且附带参考答案。

Transformer 中 FFN 使用的激活函数是什么？有什么优缺点？

在Transformer 中的前馈神经网络中采用的是ReLU激活函数，其优缺点如下：

（1）优点：ReLU函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象；此外，ReLU 函数的导数计算更快，所以使用梯度下降时比Sigmod收敛起来要快很多；

（2）缺点：当输入数据是小于0的时候，那么经过这个神经元的梯度将都变成0；这个时候这个ReLU单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失。

详细介绍Decoder模块中都包括哪些结构以及对应的功能

（1）输入嵌入（InputEmbed与Transformer网络中的Encoder模块相似，某些算法模型中直接将ObjectQuery初始化为高纬度的特征向量

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

深度学习算法岗求职八股文专栏文章被收录于专栏

全网最全面的深度学习算法岗求职八股文专栏，内容涵盖互联网大厂算法岗实习、秋招、春招面试环节中常考的高频八股文题目，适合想要打牢基础知识、准备求职的算法工程师或者准算法工程师阅读学习。

全部评论

推荐最新楼层

上岸了的祖国花朵很犯困

南京大学算法工程师

谢谢，对求职很有帮助

点赞回复分享

发布于 08-09 12:51 北京

自信的芒果求实习

北京科技大学算法工程师

感谢博主分享

点赞回复分享

发布于 08-09 12:35 黑龙江省

许愿简历通过的螺狮粉很活跃

北京科技大学 C++

谢谢大佬

点赞回复分享

发布于 08-09 12:26 黑龙江省

lyra1

北京科技大学算法工程师

感谢分享

点赞回复分享

发布于 08-09 10:15 黑龙江省

peppaw

算法工程师

感谢分享很有帮助

点赞回复分享

发布于 08-08 21:45 北京

幻影旅团

长春工业大学网络营销

谢谢大佬

点赞回复分享

发布于 07-17 13:48 吉林

吕听荷

西安邮电大学嵌入式工程师

点赞回复分享

发布于 07-17 13:47 陕西

十五不是食物丶

西北工业大学算法工程师

哇哇，谢谢

点赞回复分享

发布于 07-17 13:47 陕西

08-17 23:35

已编辑

阿里巴巴_钉钉_前端工程师

阿里巴巴钉钉业务平台前端校招（23届）

补校招面经，现在去是最美逆行者投递比较晚，在9月末，志愿没有填钉钉但一开始淘天电话没接到挂了被钉钉捞了。中间换组重面过一次，投递到面试完成近2个月，11月底意向书+oc，第一个组全程笔试面试都开视频，笔试用了阿里伯乐系统，但允许本地跑测试样例，换组后全程电话面，这2个组目前在不同的产品线下，没有业务平台这条线了。第一个组一面自我介绍项目经验react native原理ssrtcp三次握手jsonp什么是虚拟dom？优缺点轮播图 过渡效果？有几个offer？为什么要投阿里？笔试*****lodash get二面 （主管面）自我介绍实习项目介绍、深挖在校学习成绩？基础课程学过什么？数组和链表的区别...

点赞评论收藏

07-30 10:19

华东师范大学算法工程师

算法面经：Transformer为什么要除以根号d？

🤔 这道题是经典中的经典，超容易被问到，如果答不出来是很减分的！作者参加过的暑期实习和秋招的面试中这道题考了得有7次以上了（大多数为一面考察的）。每当面试官问到Transformer相关的八股，这道题几乎是必问的。📖 此题的答案是：由于Query和Key的点积操作使得结果方差变大d倍，导致模型容易出现梯度消失现象，因此需要除以根号d减小方差，避免梯度消失问题。详细的分析如图1所示。📈 图3和图4为验证不除以根号d会导致的注意力分数靠近0或1现象的代码。图2为结果。

点赞评论收藏

08-14 20:45

电子科技大学 C++

字节一面

字节一面，体验很好，面试官也很好，虽然经历了长达100分钟的拷打，但是真心觉得体验很不错，希望以后都遇到这种面试官自我介绍stl主要有哪些容器？有哪些迭代器？这些容器和迭代器的底层原理是什么样的？举例说明迭代器和容器的关联关系是什么？智能指针的原理？unique_ptr,shared_ptr，weak_ptr的区别？都用在什么场景？手撕shared_ptr，必要的函数，核心逻辑+测试用例操作系统从一个磁盘里面读取文件信息到内存分为哪几个步骤？详细解释一下DMA技术？零拷贝逻辑怎么实现的？mmap映射的具体过程？虚拟内存是什么？一个系统本身崩溃了，比如一个日志系统自身崩溃了，怎么保证可靠性？详细...

字节跳动一面1347人在聊

点赞评论收藏

08-15 14:10

已编辑

太原理工大学 Java

百度提前批一面 40min（二面挂）

1：自我介绍2：介绍项目3：mysql4: redis5: rpc以及技术栈在项目里的用法6:反转链表7反问这个时间点会是KPI吗，面试官聊的挺轻松的8.6号更新一面过啦！！！啊啊啊啊，第一次过一面，有点想哭了，希望二面过🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤🤤8.11更新全是场景题结合八股来问的，手撕是面试官自制的一道题目，一个简单的数组排序，许愿二面过8.15更新中午二面挂，目前已共享，想哭

查看6道真题和解析

点赞评论收藏

07-28 23:01

美团_服务零售_软件开发(实习员工)

打响秋招第一枪

合合信息 - 多模态大模型算法工程师，我本来是做后端的，无奈想体验一把算法工程师的面试，就当练手了（希望能练上手）

投递合合信息等公司9个岗位

点赞评论收藏

招聘动态

虎鲸文娱

2026届校园招聘

招商银行·招银网络科技

2026届校园招聘

中国电信天翼云

2026届校园招聘

满帮集团

2026秋季校园招聘

平安产险科技中心

2026届校园招聘

去哪儿旅行

2026届校园招聘

小天才

2026届校园招聘

亚信安全

2026届校园招聘

度小满

2026届校园招聘

乐元素

2026校园招聘

全站热榜

创作者周榜

正在热议

# 面试被问“你的缺点是什么?”怎么答 #