大模型面经每日总结 (滴滴大模型)
什么是MOE(混合专家模型)?其核心设计思想是什么?
DeepSeek MOE是哪家公司的产品?其架构设计有哪些特色?
门控网络(Gating Network)的作用是什么?
如何解决MOE中专家负载不均衡问题?
在分布式训练中,MOE如何实现专家参数的高效更新?
DeepSeek MOE如何优化长序列场景下的推理效率?
如何评估MOE模型的稀疏性效率?请列举至少2个指标。
若设计多模态MOE模型,门控网络应如何融合图像/文本特征?
若MOE推理时出现“专家选择震荡”,如何解决?
#滴滴##大模型##算法#
DeepSeek MOE是哪家公司的产品?其架构设计有哪些特色?
门控网络(Gating Network)的作用是什么?
如何解决MOE中专家负载不均衡问题?
在分布式训练中,MOE如何实现专家参数的高效更新?
DeepSeek MOE如何优化长序列场景下的推理效率?
如何评估MOE模型的稀疏性效率?请列举至少2个指标。
若设计多模态MOE模型,门控网络应如何融合图像/文本特征?
若MOE推理时出现“专家选择震荡”,如何解决?
#滴滴##大模型##算法#
全部评论
方便问下是滴滴什么部门的llm面试吗?
相关推荐