面完就知道已挂无自我介绍,上来先介绍他们团队,然后说一面只考察基础,不问项目,就简历上写了Lora1、先code,桌面共享个IDE,手撕lora,给class loralinear,只要写init和forward部分即可2、scale值和alpha:一般设置为多少?这么设置的动机是什么?根据什么去调整?3、A/B两个矩阵的初始化,以及为什么一个是随机高斯初始化,一个是0,能不能两个都为0,能不能两个都随机初始化?4、推理时会用到的并行策略?比如70B的模型,用8卡(A800)单机去跑推理,如何打满GPU?正确答案应该是:可以采用TP+FP8/INT8的形式,如果使用vLLM这种推理加速器的时候,显存利用率的配置可以写成95%,最大程度打满。(结果我说DP+ZERO2,面试官说的是推理时候,结果我一紧张脑子里是训练的时候,吐血。面试官提示了zero是处理哪些部分,结果我迟迟反应过来!Zero只会在训练的时候用!)