大模型面经每日总结 (腾讯算法实习)

#腾讯##腾讯2025实习生招聘#
#大模型##面经#
MOE 负载均衡损失函数及其数学原理?
如何优化负载均衡的计算效率?
门控机制优化,分布式环境下实现高效的门控计算,减少通信开销?
推导 MoE 稀疏激活带来的计算复杂度优势?
当专家数量增加到 1000 + 时,如何优化路由算法的延迟?
训练稳定性与优化,解释专家并行 (Expert Parallelism) 和张量并行 (Tensor Parallelism) 在 MoE 中的协同工作原理。
解释 Soft MoE 和 Hard MoE 的区别,为什么 Hard MoE 在实际应用中更常见?
当专家数量超过可用 GPU 数量时,如何设计高效的专家调度策略?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务