一面 1.挑一个项目介绍2.transformer计算的时间复杂度和空间复杂度,deepseek对transformer主要做了哪些改进?3.为什么要在推荐系统中引入rqvae?4.如何解决坍缩问题?5.对rankmixer了解吗?介绍一下?6.详细介绍一下Moe?优缺点各自是啥?7.训练模型如果loss不稳定,如何解决?8.了解lora 吗?9.代码:手撕mha10.反问:业务二面1.项目介绍2.bert的预训练任务是什么?3.bn和In的区别?在什么场景使用?4.如果qk变成同一个矩阵会有影响吗?如果一定要变成同一个矩阵,如何解决影响?5.介绍一下帕累托°?6.如何挑选特征?7.你对推荐算法中特征工程的心得有哪些?8.代码:实现交叉熵9.反问:组内有哪些方向