大模型面经每日总结 (滴滴大模型)

 什么是MOE(混合专家模型)?其核心设计思想是什么?  
 DeepSeek MOE是哪家公司的产品?其架构设计有哪些特色?  
 门控网络(Gating Network)的作用是什么?
 如何解决MOE中专家负载不均衡问题?  
 在分布式训练中,MOE如何实现专家参数的高效更新?  
 DeepSeek MOE如何优化长序列场景下的推理效率?  
 如何评估MOE模型的稀疏性效率?请列举至少2个指标。  
 若设计多模态MOE模型,门控网络应如何融合图像/文本特征?  
 若MOE推理时出现“专家选择震荡”,如何解决?
#滴滴##大模型##算法#
全部评论
方便问下是滴滴什么部门的llm面试吗?
点赞 回复 分享
发布于 06-11 17:09 北京

相关推荐

评论
2
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务