美的-NLP/大模型一面面经
📍面试公司:美的
👜面试岗位:NLP/大模型
📖面试问题:
1. 介绍bert
2. 因项目中用到了bert+crf,问了两者用到学习率是否一样?为什么不一样?
3. crf的转移矩阵和发射矩阵是什么?计算公式和计算结果是什么?
4. 大模型微调怎么做的?
5. Qwen的位置编码是怎么做的(rope和YaRN)
6. rope是加上去的还是乘上去的?bert的呢
7. rope是怎么应用在超出长度限制的输入上的,bert的位置编码可以用到超出长度限制的输入上吗
8. 如果大模型输入是4k长度,可以输出8k的长度输出吗
9. lora可以用在哪些地方?为什么可以用在ffn层?为什么作者一开始先用在q,k,v,o的权重矩阵上?
10. 如何理解低秩状态?
11. 在资源受限制的情况下(不能分布式),有10亿条数据,原本需要训练10亿次,怎么做能够减少训练次数,比如训练6-7亿次?这题不太明白,只回答了一个梯度累积
其他是一些项目问题
反问:
业务内容,岗位能力交叉性
🙌面试体验:已经无力,攒攒人品
#算法岗面试##算法面经#
👜面试岗位:NLP/大模型
📖面试问题:
1. 介绍bert
2. 因项目中用到了bert+crf,问了两者用到学习率是否一样?为什么不一样?
3. crf的转移矩阵和发射矩阵是什么?计算公式和计算结果是什么?
4. 大模型微调怎么做的?
5. Qwen的位置编码是怎么做的(rope和YaRN)
6. rope是加上去的还是乘上去的?bert的呢
7. rope是怎么应用在超出长度限制的输入上的,bert的位置编码可以用到超出长度限制的输入上吗
8. 如果大模型输入是4k长度,可以输出8k的长度输出吗
9. lora可以用在哪些地方?为什么可以用在ffn层?为什么作者一开始先用在q,k,v,o的权重矩阵上?
10. 如何理解低秩状态?
11. 在资源受限制的情况下(不能分布式),有10亿条数据,原本需要训练10亿次,怎么做能够减少训练次数,比如训练6-7亿次?这题不太明白,只回答了一个梯度累积
其他是一些项目问题
反问:
业务内容,岗位能力交叉性
🙌面试体验:已经无力,攒攒人品
#算法岗面试##算法面经#
全部评论
相关推荐