感觉这大环境,双非真的太不容易了
点赞 评论

相关推荐

05-16 23:45
点赞 评论 收藏
分享
面试官一上来没问传统的八股,直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft,根本就没有训练数据,你这个场景还得是多轮的,用户又不是报菜名贯口选手,张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据,从哪开始炼?先搞数据吧。现在海底捞门店全是 iPad 和小程序点单,数据形态是用户行为轨迹(trajectory),不是对话:- 选锅底(番茄 + 牛油)- 加菜、撤菜- 翻页停留(隐式反馈)- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话,再喂模型学。目标语料长这样 👇▎ Agent:先看锅底?▎ 用户:有人吃辣有人不吃。▎ Agent:番茄牛油鸳鸯,行么?▎ 用户:可以,麻度调到 1。▎ Agent:开始点涮菜吧。▎ 用户:来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话,SFT 阶段仅计算 Agent 那一侧的 loss(User轮次全 mask 掉),不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器:- 输入种子 profile:黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后,模拟器接力生成第二轮回应,往返多轮- profile 里塞一个 「结束点餐」special token,控制对话什么时候自然停下有了这个模拟器,才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计?我的思路是全部做成 verifiable reward,避免 reward hacking:符合历史人均消费客单价+100分,点餐分量合理+80分,荤素分布合理或符合历史分布+60分,命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配,,引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问,这么做的大模型应用真比直接点餐体验好吗?我愣住了,你们招这岗位,不就是要做这个事吗。。。为啥还要质疑存在的合理性?我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了
查看3道真题和解析
点赞 评论 收藏
分享
项目与经历 1.请做一个简单自我介绍。2.这个项目是研究生项目吗?你有 Android 开发经验吗?3.为什么你们项目要使用 KMM / Compose Multiplatform 做跨平台?4.你提到的加密锁代码主要工作是什么?Android 客户端基础5.Android 四大组件有哪些?各自用途是什么?6.除 Activity 之外,实际开发一个界面还会涉及哪些东西?7.BroadcastReceiver 通常有几种注册方式?什么时候使用动态注册?8.App 内跨组件 / 跨模块的事件通知是怎么做的?协程、异步与 Compose9.协程是什么?它和进程、线程是什么关系?10.协程和线程最大的差异是什么?11.Android 中处理异步任务通常会用哪些类或方式?例如网络请求后如何更新界面?12.Compose 中 StateFlow 状态变化是如何触发重组的?13.除了协程 + Flow,还了解哪些界面更新方式?工程安全与打包14.ProGuard / R8 混淆的主要作用是什么?除安全外还有什么作用?15.如果代码里有密钥,通常应该怎么处理?混淆能不能保护密钥?进程与通信16.你们这个 Android 应用有几个进程?17.主进程和后台进程是否需要通信?具体通过什么方式通信?计算机基础:数据结构与设计模式18.你比较熟悉哪些数据结构?19.数组和链表最核心的区别是什么?数组查询为什么快?如果不知道元素位置,两者还有差异吗?20.你了解哪些设计模式?例如工厂模式、单例模式。并发与网络21.什么是死锁?产生死锁的四个必要条件是什么?22.实际开发中如何尽可能避免死锁?23.在浏览器输入 www.qq.com 并回车后,网页渲染出来之前大概会经历哪些网络协议 / 流程?24.HTTP 和 HTTPS 的默认端口号分别是多少?25.视频会议通常更适合 TCP 还是 UDP?为什么?26.TCP 三次握手的流程是什么?为什么需要三次,两次不行吗?算法与代码27.现场写一个链表反转算法,并说明思路。28.ListNode 构造函数里为什么给 next 赋 null?如果不赋默认值会有什么问题?
查看29道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务