美团校招大模型算法一面

1.项目介绍,问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ,那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中,如何防止模型在微调数据集以外的问题上泛化能力下降?如何防止模型收敛到单一类型的高奖励回答
9.代码:25.K个一组翻转链表
全部评论

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
二、Text2SQL 相关技术问题1. 不同数据表量级下,Text2SQL 的技术选型差异是什么?2. 为何要将数据表每一行数据向量化?使用的 Embedding 模型是什么?3. 行级向量化与表元数据(Metadata)检索的优劣对比,为何不直接用 Metadata?4. Text2SQL 业界常用方案、技术框架与难点你了解哪些?三、RAG 相关技术问题1. Jira Agent Rack 项目要解决什么问题?高频查询内容是什么?2. 为何采用关键词+向量混合检索?各自适用场景是什么?3. 结构化数据用固定分块的原因?什么场景不适合固定分块?4. 长文档 RAG 如何分块?标点分块如何解决语义割裂问题?5. RAG 中为何要加**重排(Rerank)**环节?你的项目是否使用?6. 加重排后效果变差的原因是什么?7. 是否做过Query 改写?解决什么问题?如何实现?8. RAG 与小模型微调的适用场景分别是什么?四、Agent 相关技术问题1. 多 Agent 系统采用什么架构?任务如何编排?2. OpenCloud、Perplexity 等 Agent 系统的核心是什么?3. Agent 的短期/长期记忆如何设计、区分与协作?4. Agent 系统相比直接用大模型的优势是什么?5. 用户如何自定义 Agent 与 MCP?流程是什么?整体上就是自己给自己挖坑,很多细节答不上来,面试了差不多50min,面试完感觉被抽干了,像是做了一次小丑,好不容易有次二面,被自己浪费了
查看17道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务