美团北斗大模型秋招算法岗面经

1️⃣一面
1. 介绍第一篇论文,reward model怎么设计。
2. 过程监督的信号具体是怎么设计的。过程监督的信号还能应用在哪些地方。
3. 如何保证强化学习的训练效率(平衡效率和稳定),grpo训练过程中出现了全0或者全1怎么解决。
4. 混合推理是怎么做的(OpenAI GPT-5),大模型在增强推理的时候如何保证通用数据不遗忘。
5. 现在大模型还有那些能力值得增强。
6. 介绍第二篇论文
7. 介绍第一段实习,介绍落地的场景。
8. 写题,非hot100的模拟

2️⃣二面
1. 介绍第二段实习,中间会打断提问,问看过qwen2.5‑vl的报告了吗,问具体业务细节,强化学习数据集的构建方法,问部门几个人
2. 介绍第一段实习,主包这一段实习是基座的,问了很多部门的情况,包括后训练、预训练、数据生成等等
3. 介绍第一篇论文,介绍背景和方法
4. 面试官感觉很真诚,共享屏幕介绍他们组的业务

3️⃣三面
1. 问是保研的吗,论文是研究生阶段发的吗,大四在干什么,研究生的毕业论文写好了吗,两篇论文是一个领域的吗
2. 介绍第一篇论文,中途打断,说不了解你们这个领域,针对强化学习的底层设计,怎么去设计的,强化学习能解决什么问题,强化学习每一轮用的数据是多少,模型用的多大的,用小模型做强化学习效果会好吗,实验室里有多少张卡,训练的时候都用了几张。
3. 研究生阶段在做科研时遇到了什么困难,花费时间最长的是哪个阶段,研究生有什么成功的经验,有没有失败的经历,发现某条技术路线不行。
4. 你认为未来会有什么新技术,还会有强化学习这种路线吗,agent调用工具时工具需要很多参数,幻觉现象很严重,未来可能会有什么解决方案

4️⃣四面
1. 共享屏幕介绍论文,面试官听不懂,打开word讲述,问论文的创新点,输入输出是什么。
2. 介绍第二篇论文。你的方法有泛化性吗,可以泛化到垂直领域吗
3. 介绍第一段实习,问有什么经验,有哪些失败的尝试
4. 介绍第二段实习,觉得我的介绍太平铺直叙了,说可以后面做个PPT

📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

05-20 11:07
已编辑
大连民族大学 Java
面试日期:4.24面试时间:40min面试体验整体体验直接拉满!面试官人超级好,全程像平等聊天一样,完全没有压迫感,不会故意刁难。技术问题只占 10 分钟左右,大部分时间都在聊项目落地、学习态度和对 AI 全栈的理解。遇到我答得不好的地方,还会主动给技术建议和思路引导,能明显感觉到他们是真的想招能干活、愿意成长的人,而不是单纯考八股的面试官。面试复盘--自我介绍--1.常规 3 分钟自我介绍。--项目深挖--2.这个项目是前后端分离架构吗?目前前端开发到什么程度了?3.当初为什么想做这个面试系统?做完之后对自己的真实面试有帮助吗?4.大模型接口是自己申请的官方 token 吗?用的哪个版本的模型?5.详细讲一下你设计的Agent 调度器和面试状态机的流转逻辑(我讲了 ReAct 思考 - 行动 - 观察模式 + 6 个面试阶段的状态机设计)6.项目里的各个 Skill 模块是怎么实现的?每个 Skill 单次调用大概消耗多少 token?7.怎么优化 Skill 的 token 消耗问题?(这里我答得不太好,面试官主动给了渐进式加载的核心建议:不要把大 Skill 一次性全量传给大模型,可以拆成多个小模块按需调用,就像看书先看目录再翻具体章节,能大幅减少 token 浪费)8.前端大模型回答字数多了会卡顿,你觉得可能是什么原因?--软技能与匹配度考察--9.你之前的实习主要做什么?为什么做了三个月就选择离职了?10.之前实习的时候代码有人做 Code Review 吗?一般会指出哪些常见问题?11.你对互联网公司的加班文化怎么看?能接受快节奏的工作模式吗?12.为什么想做 AI 全栈方向?对这个方向有什么自己的理解?13.你觉得全栈开发最大的痛点是什么?根据实际工作遇到的问题来讲讲如何解决14.有没有考虑过留在之前的实习公司?为什么想出来找新的机会?--反问环节--15.这轮面试过了之后还有几轮?结果大概什么时候会通知?16.组里有没有规范的开发手册?代码提交和合并有什么具体要求?17.公司现在的核心业务是什么?AI 转型具体在做哪些落地方向?个人总结 & 给后面同学的面试建议数数的面试真的非常务实:不考偏难怪的八股,所有问题都围绕 "你能不能干活、能不能快速学习、能不能融入团队" 展开。只要你有真实的项目经历,能把自己做的东西讲清楚,通过率会非常高。重点准备 AI 相关的项目:现在数数全公司 All in Agent,如果有 Agent、RAG、大模型调用相关的项目,一定要准备得非常细,能讲清楚全链路和遇到的问题,会非常加分。不要怕说自己不会:遇到答不上来的问题,直接说自己不太了解,面试官会主动给你引导和建议,反而比瞎编乱造好很多。
查看17道真题和解析
点赞 评论 收藏
分享
面试官一上来没问传统的八股,直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft,根本就没有训练数据,你这个场景还得是多轮的,用户又不是报菜名贯口选手,张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据,从哪开始炼?先搞数据吧。现在海底捞门店全是 iPad 和小程序点单,数据形态是用户行为轨迹(trajectory),不是对话:- 选锅底(番茄 + 牛油)- 加菜、撤菜- 翻页停留(隐式反馈)- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话,再喂模型学。目标语料长这样 👇▎ Agent:先看锅底?▎ 用户:有人吃辣有人不吃。▎ Agent:番茄牛油鸳鸯,行么?▎ 用户:可以,麻度调到 1。▎ Agent:开始点涮菜吧。▎ 用户:来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话,SFT 阶段仅计算 Agent 那一侧的 loss(User轮次全 mask 掉),不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器:- 输入种子 profile:黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后,模拟器接力生成第二轮回应,往返多轮- profile 里塞一个 「结束点餐」special token,控制对话什么时候自然停下有了这个模拟器,才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计?我的思路是全部做成 verifiable reward,避免 reward hacking:符合历史人均消费客单价+100分,点餐分量合理+80分,荤素分布合理或符合历史分布+60分,命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配,,引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问,这么做的大模型应用真比直接点餐体验好吗?我愣住了,你们招这岗位,不就是要做这个事吗。。。为啥还要质疑存在的合理性?我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了
查看3道真题和解析
点赞 评论 收藏
分享
1. 你讲一讲 ReAct 模式的原理,以及你的对话 Agent 是如何基于 ReAct 模式去实现的?2. ReAct 跟普通的 Function Calling 有什么区别?3. 这个 Agent 里可以做业务咨询、告警自救、工单预处理,这些场景在 ReAct 模式上要做切换的话,是怎么设计的?4. 这些场景是用一个大的 System Prompt 统一收容了吗?5. 你对上下文管理有过了解吗?6. 如果后续场景、工具越来越多,这个场景切换和工具匹配的部分要怎么优化?7. 多轮循环里的防空转(持续思考但不产生行动),你是怎么去设计的?8. Plan Execute Replan 这个模式跟 ReAct 模式有什么区别呢?9. Replan 这个节点是在什么样的情况下触发的?包括 Planning 里原计划不可行、需要重新规划的逻辑,是怎么设计的?10. 你这个 AIOPS 的 Multi-Agent 架构是怎么样的?11. 那你这个架构设计,为什么不用 ReAct 这种模式呢?12. 你说的 “上下文隔离更好地判断结果”,这句话怎么理解?13. 那你用多 Agent 的这种模式、用 Plan 的方式去实现,它是怎么解决你刚刚提出的问题的?优势是什么?14. RAG 这部分的系统,包括固定的系统文档、向量化以及检索方案,这块你是怎么设计的?15. 你的 topK 设置的是多少?设置的依据是什么?topK 太高或者太低分别会有什么问题?16. 你这个 Embedding 用的什么模型?17. 你选择这个 embedding 模型,是基于你的业务需要,还是基于有可用的免费额度就先用了?18. MCP 协议这块你有了解过吗?我看你项目里也用到了对吧?19. 你怎么理解 MCP?以及你用 MCP 去集成查询工具,具体是怎么设计的?20. 这里面的 MCP Server 跟 Client 分别是谁?21. 你这个日志查询工具,如果返回的日志内容太长、条数太多,你要怎么处理?22. 如果用 Lua 脚本去做预扣库存、分布式锁的相关实现,具体是怎么做的?23. 你这个项目里的乐观锁是怎么实现的?24. 这个条件更新具体是怎么更新的?对应的 SQL 语句是怎么写的?25. 那为什么不用版本号的方式实现乐观锁呢?26. 如果 Redis 里面的库存已经扣减了,但是数据库更新失败了,这种不一致的数据你要怎么处理?27. 你有用 AI Coding 去写代码吗?28. 都用了什么 AI Coding 工具?29. 你用 Claude Code 的时候,是怎么做上下文管理的?30. 你怎么理解上下文?31. 你对 Agent 和 Skill 这一块的理解是什么?32. 你用 Claude Code 的时候,里面用的是哪个模型?33. 你对市面上主流的代码大模型有去了解过吗?主流的模型有哪些,它们分别有什么差异?
我的求职进度条
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务