小红书LLM算法实习二面 八股盛宴
整体面试还是不错的,发一下问题给大家参考
1.Transformer的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.fn结构
4.encodeddecoder区别
5.一个decoderblock由几个部分组成
6.encoder的输出,作为什么到decoder
7.为什么decoder更适合生成
8.decidedmask在推理中有用吗
9.rope在哪里加入
10.GQAMHAMQA 别
11.swiGLU的改进
1.Transformer的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.fn结构
4.encodeddecoder区别
5.一个decoderblock由几个部分组成
6.encoder的输出,作为什么到decoder
7.为什么decoder更适合生成
8.decidedmask在推理中有用吗
9.rope在哪里加入
10.GQAMHAMQA 别
11.swiGLU的改进
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看9道真题和解析