zero_51 - 个人主页动态 - 牛客网

05-26 12:11

门头沟学院算法工程师

海底捞大模型面经

面试官一上来没问传统的八股，直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft，根本就没有训练数据，你这个场景还得是多轮的，用户又不是报菜名贯口选手，张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据，从哪开始炼？先搞数据吧。现在海底捞门店全是 iPad 和小程序点单，数据形态是用户行为轨迹（trajectory），不是对话：- 选锅底（番茄 + 牛油）- 加菜、撤菜- 翻页停留（隐式反馈）- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话，再喂模型学。目标语料长这样 👇▎ Agent：先看锅底？▎ 用户：有人吃辣有人不吃。▎ Agent：番茄牛油鸳鸯，行么？▎ 用户：可以，麻度调到 1。▎ Agent：开始点涮菜吧。▎ 用户：来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话，SFT 阶段仅计算 Agent 那一侧的 loss（User轮次全 mask 掉），不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器：- 输入种子 profile：黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后，模拟器接力生成第二轮回应，往返多轮- profile 里塞一个 「结束点餐」special token，控制对话什么时候自然停下有了这个模拟器，才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计？我的思路是全部做成 verifiable reward，避免 reward hacking：符合历史人均消费客单价+100分，点餐分量合理+80分，荤素分布合理或符合历史分布+60分，命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配，，引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问，这么做的大模型应用真比直接点餐体验好吗？我愣住了，你们招这岗位，不就是要做这个事吗。。。为啥还要质疑存在的合理性？我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了

查看3道真题和解析

0 点赞评论收藏

分享

05-06 06:20

门头沟学院算法工程师

深言科技nlp算法日常实习二面分享

有面试过同岗的朋友欢迎评论区交流1.项目细节2.全量微调和sft rl3.Dpo rlhf联系区别 ,dpo介绍,ppo和dpo的相似之处4.prefill和decode的复杂度，kv cache手撕1.lc9 最长无重复子串2.lc1143 最长公共子序列

查看6道真题和解析

0 点赞评论收藏

分享

04-29 09:00

门头沟学院算法工程师

蚂蚁智能体与大模型应用开发一面凉经

感觉面完人都通透了，还是太菜了，下去沉淀一下1.redis和lua实现库存防超卖和一人一单，redis用lua的方式和使用2.redis本身的事务特性的方式的区别是什么？为什么不用redis本身的事务特性做防超卖？3.redis的set、get是原子性操作吗？用redis的set已经是原子性的了，为什么还需要使用lua脚本4.lua脚本过长会导致阻塞吗？5.怎么解决实际生产环境中防超卖导致的并发的吞吐量的问题呢？lua会阻塞，那怎么解决既要保证不重复下单又要保证吞吐量6.如果下单的时候，有一个单子在lua中判断秒杀资格卡了很长时间，其他人操作点都点不了 ,会出现这种情况吗7.如果lua脚本中某一步出错异常了会怎么办8.lua脚本写了哪些功能9.布隆过滤器是怎么拦截无效查询的10.volatile关键字作用11.Lock锁的实现原理12.AQS原理13.spring的AOP原理是什么？14.如果是分布式系统，怎么解决分布式系统的事务一致性15.如果用消息队列，如果有一条消息没有及时处理，可能是对堆积了也可能是消息发送给系统但是系统繁忙给丢弃了，你会怎么做16.如果服务器处理任务有上限，不能及时处理新的消息，从消费者来说应该做什么处理17.如果系统繁忙，支付消息丢失了，客户没付钱，但是订单创建成功了，应该怎么后续弥补18.如果lua脚本中有abc三步操作，如果a成功b失败，工程层面上来讲系统应该怎么设计，怎么保证系统的鲁棒性？19.生产环境中抢一笔订单，抢到了但是因为系统的问题内部要做abc三个操作，在做b的时候可能网络抖了一下导致b操作异常，这时候要让客户重新点击一次吗？20.智能客服，使用redis支持会话记忆，agent中会话记忆有几种记忆管理？21.向量数据库中怎么保证获取到的数据是尽量有效且准确的，而不是一些无用的数据22.用向量相似性完成rag召回一般用什么算法23.你了解skill吗？自己写过吗？24.有prompt，为什么引入skill处理25.Ai coding用过吗？ai coding现在有个spec coding,sdd的研发模式，这是一种什么样的概念26.你现在用的ai coding工具有哪些

查看25道真题和解析

0 点赞评论收藏

分享

04-22 22:20

门头沟学院算法工程师

AI应用研发二面面经分享-阿里云

发一下问题给大家参考，攒攒人品！1. 实习相关2. 在学校的研究方向3. 项目拷打4. 循环流程是什么，每个阶段怎么做的，举个例子5. 执行太长或死循环怎么解决的6. Agent的prompt怎么写的，针对模型幻觉问题做了哪些约束7. RAG怎么做文本切分的，窗口大小怎么设计的8. 向量检索的准确性怎么评估校验的9. 向量用的什么索引，数据量大概多大，查询延迟多少10. SSE和websocket的区别，SSE具体怎么实现的，后端什么时候推送，前端如果断连怎么处理11. 项目的分工，代码量大概多少，有没有正式上线，使用效果怎么样，大概做了多久12. 重新再看agent这个项目，有哪些优化点或新的思考13. 未来AI会变成什么样子，可能会有多大权限

查看13道真题和解析

0 点赞评论收藏

分享

04-17 01:25

门头沟学院算法工程师

百度coding Agent算法暑期实习

发一下问题给大家参考，攒攒人品！项目：1. agent中planner的使用场景2. 长任务长度是多少3. 主模型选型，子agent类型，上下文内容4. sft如何提升plan能力八股：1. 什么是agent，最重要的组成部分2. agent的自主性agency如何实现3. ReAct是什么，他的agent执行流程4. agent设计为何要分host和sub5. 使用过哪些agent产品，rule mcp 和 skill的差别，个人使用情况6. 多轮对话超长上下文处理策略7. 上下文summary机制设计细节8. coding场景下压缩，应保留哪些关键信息9. 长期记忆的存储位置和检索策略10. 从0到1设计coding agent的思路以及细节个人工作流以及体验，使用aicoding的逻辑

查看14道真题和解析

0 点赞评论收藏

分享

04-12 02:30

门头沟学院算法工程师

快手nlp算法一面-27实习

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.先写两道手撕：两数之和，三数之和（特殊情况优化）八股：2.transformer，encoder和decoder区别，文本和视觉编码逻辑；3.vit，clip，bert，文本生成一般为什么decoder-only架构？4.基座选型；除了qwen了解别的开源体系吗？5.为什么要rag？除了rag有别的方法能改善幻觉和重复输出？偏好对齐能不能缓解幻觉？怎么做？6.prompt设计相关问题；7.了解哪些微调方法，为什么要用lora？8.训练调参问题；什么时候上强化学习？

查看9道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务