📍面试公司:美的👜面试岗位:NLP/大模型📖面试问题:1. 介绍bert2. 因项目中用到了bert+crf,问了两者用到学习率是否一样?为什么不一样?3. crf的转移矩阵和发射矩阵是什么?计算公式和计算结果是什么?4. 大模型微调怎么做的?5. Qwen的位置编码是怎么做的(rope和YaRN)6. rope是加上去的还是乘上去的?bert的呢7. rope是怎么应用在超出长度限制的输入上的,bert的位置编码可以用到超出长度限制的输入上吗8. 如果大模型输入是4k长度,可以输出8k的长度输出吗9. lora可以用在哪些地方?为什么可以用在ffn层?为什么作者一开始先用在q,k,v,o的权重矩阵上?10. 如何理解低秩状态?11. 在资源受限制的情况下(不能分布式),有10亿条数据,原本需要训练10亿次,怎么做能够减少训练次数,比如训练6-7亿次?这题不太明白,只回答了一个梯度累积其他是一些项目问题反问:业务内容,岗位能力交叉性🙌面试体验:已经无力,攒攒人品