zero_51 level
获赞
5
粉丝
0
关注
0
看过 TA
43
门头沟学院
2027
算法工程师
IP属地:广东
暂未填写个人简介
私信
关注
面试官一上来没问传统的八股,直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft,根本就没有训练数据,你这个场景还得是多轮的,用户又不是报菜名贯口选手,张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据,从哪开始炼?先搞数据吧。现在海底捞门店全是 iPad 和小程序点单,数据形态是用户行为轨迹(trajectory),不是对话:- 选锅底(番茄 + 牛油)- 加菜、撤菜- 翻页停留(隐式反馈)- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话,再喂模型学。目标语料长这样 👇▎ Agent:先看锅底?▎ 用户:有人吃辣有人不吃。▎ Agent:番茄牛油鸳鸯,行么?▎ 用户:可以,麻度调到 1。▎ Agent:开始点涮菜吧。▎ 用户:来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话,SFT 阶段仅计算 Agent 那一侧的 loss(User轮次全 mask 掉),不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器:- 输入种子 profile:黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后,模拟器接力生成第二轮回应,往返多轮- profile 里塞一个 「结束点餐」special token,控制对话什么时候自然停下有了这个模拟器,才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计?我的思路是全部做成 verifiable reward,避免 reward hacking:符合历史人均消费客单价+100分,点餐分量合理+80分,荤素分布合理或符合历史分布+60分,命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配,,引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问,这么做的大模型应用真比直接点餐体验好吗?我愣住了,你们招这岗位,不就是要做这个事吗。。。为啥还要质疑存在的合理性?我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了
查看3道真题和解析
0 点赞 评论 收藏
分享
感觉面完人都通透了,还是太菜了,下去沉淀一下1.redis和lua实现库存防超卖和一人一单,redis用lua的方式和使用2.redis本身的事务特性的方式的区别是什么?为什么不用redis本身的事务特性做防超卖?3.redis的set、get是原子性操作吗?用redis的set已经是原子性的了,为什么还需要使用lua脚本4.lua脚本过长会导致阻塞吗?5.怎么解决实际生产环境中防超卖导致的并发的吞吐量的问题呢?lua会阻塞,那怎么解决既要保证不重复下单又要保证吞吐量6.如果下单的时候,有一个单子在lua中判断秒杀资格卡了很长时间,其他人操作点都点不了 ,会出现这种情况吗7.如果lua脚本中某一步出错异常了会怎么办8.lua脚本写了哪些功能9.布隆过滤器是怎么拦截无效查询的10.volatile关键字作用11.Lock锁的实现原理12.AQS原理13.spring的AOP原理是什么?14.如果是分布式系统,怎么解决分布式系统的事务一致性15.如果用消息队列,如果有一条消息没有及时处理,可能是对堆积了也可能是消息发送给系统但是系统繁忙给丢弃了,你会怎么做16.如果服务器处理任务有上限,不能及时处理新的消息,从消费者来说应该做什么处理17.如果系统繁忙,支付消息丢失了,客户没付钱,但是订单创建成功了,应该怎么后续弥补18.如果lua脚本中有abc三步操作,如果a成功b失败,工程层面上来讲系统应该怎么设计,怎么保证系统的鲁棒性?19.生产环境中抢一笔订单,抢到了但是因为系统的问题内部要做abc三个操作,在做b的时候可能网络抖了一下导致b操作异常,这时候要让客户重新点击一次吗?20.智能客服,使用redis支持会话记忆,agent中会话记忆有几种记忆管理?21.向量数据库中怎么保证获取到的数据是尽量有效且准确的,而不是一些无用的数据22.用向量相似性完成rag召回一般用什么算法23.你了解skill吗?自己写过吗?24.有prompt,为什么引入skill处理25.Ai coding用过吗?ai coding现在有个spec coding,sdd的研发模式,这是一种什么样的概念26.你现在用的ai coding工具有哪些
查看25道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务