首页 > 试题广场 >

混合专家(MoE)模型训练中,部分专家负载为0且梯度为NaN

[单选题]
混合专家(MoE)模型训练中,部分专家负载为0且梯度为NaN。根治措施是:
  • 为冷启动专家添加先验知识初始化
  • 门控网络输出添加高斯噪声
  • 增大专家选择数k
  • 启用负载均衡损失(Load Balancing Loss)
moe nan 冷启动
发表于 2026-04-11 08:20:31 回复(0)