主包被拷打得体无完肤…这就是技术厂的强度吗?面试官看着很和蔼,就是问题相当刁钻,问得主包汗流浃背…1.怎么优化显存?2.transformer中的注意力机制、为什么用softmax、为什么用点积:余弦相似度不行吗?3.PT SFT RL的关系?可以互相替代吗?4.batch size调整过吗?lr有调整过吗?两者需要一起调整吗?5.LoRA原理?数学原理?6.文档去重?手撕代码(一道浅拷贝,一道hot100中等题)反问环节。主包太菜了觉得二面无望,没问进去能干什么,问了我应该如何改进… 总时长:1h20m