互联网大厂算法岗深度学习八股文——Transformer高频考点系列(二)
在互联网大厂算法岗的面试环节中,深度学习相关八股文的重要性早已无需多言。算法岗面试八股文看似是一个大家"背答案,对于记忆力的比拼",但实际上却是互联网大厂面试官考察候选人知识体系完整性和基础知识掌握扎实程度最直接、有效的方式!因此八股文在面试中的重要性不言而喻。
大家在求职过程中会发现,当下很多大厂算法岗面试八股文资料杂乱无章,不成体系,需要花费大量的时间和精力进行整理,耽误求职复习进度。本深度学习算法岗求职八股文专栏将互联网大厂面试中的高频八股知识点进行了汇总和梳理,并且附带参考答案。助力大家在求职面试前打下扎实的基础功底,面试过程中游刃有余!
本文是《深度学习算法岗求职八股文专栏》 中Transformer高频考点系列的第二篇文章,整理了面试过程中Transformer的高频考点,并且附带参考答案。
Transformer 中 FFN 使用的激活函数是什么?有什么优缺点?
在Transformer 中的前馈神经网络中采用的是ReLU激活函数,其优缺点如下:
(1)优点:ReLU函数在大于0的部分梯度为常数,所以不会产生梯度弥散现象;此外,ReLU 函数的导数计算更快,所以使用梯度下降时比Sigmod收敛起来要快很多;
(2)缺点:当输入数据是小于0的时候,那么经过这个神经元的梯度将都变成0;这个时候这个ReLU单元在训练中将死亡(也就是参数无法更新),这也导致了数据多样化的丢失。
详细介绍Decoder模块中都包括哪些结构以及对应的功能
(1)输入嵌入(InputEmbed与Transformer网络中的Encoder模块相似,某些算法模型中直接将ObjectQuery初始化为高纬度的特征向量
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
全网最全面的深度学习算法岗求职八股文专栏,内容涵盖互联网大厂算法岗实习、秋招、春招面试环节中常考的高频八股文题目,适合想要打牢基础知识、准备求职的算法工程师或者准算法工程师阅读学习。