小红书大模型算法实习二面

1️⃣实习介绍
2️⃣基本就是顺着简历全在问八股
1.Transformer 的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.ffn结构
4.encoded decoder 区别
5.一个 decoder block 由几个部分组成
6.encoder 的输出,作为什么到 decoder
7.为什么 decoder 更适合生成
8.decided mask 在推理中有用吗
9.Transformers 各个架构的改进(attention/ffn/位置编码)分为:
10.GQA MHA MQA 区别
11.swiGLU 的改进
12.rope 在哪里加入
3️⃣然后开始项目,其实也问很多八股:
1.用的什么开源 dpo 数据
2.为什么没用 qwen-3
3.全参数微调 7B 需要多少显存
4.FP16/BF16 区别
5.AdamW 显存计算
6.介绍 Flash attention
7.介绍 gradient checkpoint
8.RougeL 计算方法
9.代码:
找数组第 k 大元素
全部评论

相关推荐

迷茫的大四🐶:不是,匿名发帖,你也可以发
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务