一、算法手撕+八股1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别?3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩4. 多模态融合中 对比学习损失和重构损失如何加权?5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度二、项目深挖1. 微调Qwen时发现验证集loss震荡的可能原因2. 多工具调用中如何用DAG实现并行调度优化3. 长文本推理的压缩方案 对比Sliding Window和NTK4. 模型量化时遇到激活值异常溢出如何调试5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉三、场景设计为智能客服设计多轮对话系统