大模型面经每日总结 (滴滴大模型)

 什么是MOE(混合专家模型)?其核心设计思想是什么?  
 DeepSeek MOE是哪家公司的产品?其架构设计有哪些特色?  
 门控网络(Gating Network)的作用是什么?
 如何解决MOE中专家负载不均衡问题?  
 在分布式训练中,MOE如何实现专家参数的高效更新?  
 DeepSeek MOE如何优化长序列场景下的推理效率?  
 如何评估MOE模型的稀疏性效率?请列举至少2个指标。  
 若设计多模态MOE模型,门控网络应如何融合图像/文本特征?  
 若MOE推理时出现“专家选择震荡”,如何解决?
#滴滴##大模型##算法#
全部评论
mark收藏
点赞 回复 分享
发布于 2025-07-28 12:03 北京
好家伙逮着MOE问啊
点赞 回复 分享
发布于 2025-07-26 16:20 天津

相关推荐

1. 某笔记管理网站的音乐源从何处获取,音乐是存储在云端还是前端工程中;若音乐打包在前端工程中,音乐数量增多会导致包体积变大,该如何对其进行更新修改?2. 百度关键词命中系统的架构是怎样的?请介绍该系统的实现逻辑及相关算法。3. 百度关键词命中系统是否使用Java开发?4. 百度关键词命中系统的优化是否包含将关键字从MySQL加载到内存和CDA中,系统实际运行时是否不再查询MySQL?5. 百度关键词命中系统的400个实例加载的内容是否一致?6. 百度关键词命中系统为何要通过shell脚本让400多个实例重启,不重启是否无法完成数据更新?7. 请介绍百度关键词命中系统中Redis带宽优化的具体实现逻辑。8. 百度关键词命中系统中通过何种方式将12MB的流量降至10MB以下?9. 若不使用Redis,是否有更简单的方法控制百度关键词命中系统的带宽问题?10. 在Golang中,协程异步推送是否会带来较大的内存压力?11. 请介绍Golang的协程和进程的模型。12. 请介绍Java的JVM内存区域分布。13. 请介绍Java常用集合(如HashMap、HashSet等)的相关源码。14. 在实际工作中是否利用Java相关知识做过性能调优,具体是如何操作的?15. 在百度文档提取系统中参与最深的模块是哪个,请介绍该模块的具体实现逻辑。16. 百度文档提取系统中通过try catch捕获异常绕过提取失败的部分,为何可以绕过该部分,该操作是否真正解决了提取失败的核心问题?17. 请解释在百度侧的数据库优化中,覆盖索引的具体优化方式。18. 日常工作中是否经常处理慢SQL,具体是如何处理的?19. 请介绍Innodb中索引的数据结构,并说明为何选择该结构,该结构对索引设计有何指导意义?20. 某笔记管理网站中使用MySQL的全文索引NGRAPH,该索引与Elasticsearch相比效率是否更低,为何选择该索引而非Elasticsearch?21. 某智能oncall的agent系统的核心agent型架构是怎样的?22. 某智能oncall的agent系统开发中,除了使用相关AI工具外,做的最多的工作是哪些,具体是如何实现的?23. 在使用AI编程工具时,若一个工具查询了大量数据超过了工具的上下文窗口,该如何处理?24. 编程题:给定一个字符串,仅允许在其末尾添加字符使其变成回文串,请使用Java实现并返回构造后的最短回文串。
查看24道真题和解析
点赞 评论 收藏
分享
评论
5
39
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务