移动研究院面经

自我介绍
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。

反问。
部门以及团队情况。

全部评论
大佬你是啥岗位,一面吗
1 回复 分享
发布于 2024-11-18 16:17 江苏

相关推荐

迷茫的大四🐶:自信一点,我认为你可以拿到50k,低于50k完全配不上你的能力,兄弟,不要被他们骗了,你可以的
点赞 评论 收藏
分享
04-12 13:42
江南大学 C++
点赞 评论 收藏
分享
评论
2
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务