阿里大模型算法面经
一、算法手撕+八股
1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)
2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩
4. 多模态融合中 对比学习损失和重构损失如何加权?
5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度
二、项目深挖
1. 微调Qwen时发现验证集loss震荡的可能原因
2. 多工具调用中如何用DAG实现并行调度优化
3. 长文本推理的压缩方案 对比Sliding Window和NTK
4. 模型量化时遇到激活值异常溢出如何调试
5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉
三、场景设计
为智能客服设计多轮对话系统
1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)
2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩
4. 多模态融合中 对比学习损失和重构损失如何加权?
5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度
二、项目深挖
1. 微调Qwen时发现验证集loss震荡的可能原因
2. 多工具调用中如何用DAG实现并行调度优化
3. 长文本推理的压缩方案 对比Sliding Window和NTK
4. 模型量化时遇到激活值异常溢出如何调试
5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉
三、场景设计
为智能客服设计多轮对话系统
全部评论
相关推荐
查看11道真题和解析