腾讯WXG暑期实习面经-大模型算法

一面(1小时30分钟):
上来先做题

1. 手撕AdamW
2. 手撕无重复字母的字串(hot100)
3. 出了两个题都是对数据库的操作,我以为是让写大模拟,写到一半结果面试官告诉我是用sql写🐱,不会遂罢。
4. 面对海量数据的时候怎么对数据进行处理,比如说去除掉敏感词等等,面对海量数据会出现哪些问题,该如何去处理
5. 介绍发表的顶会论文
6. 介绍Q-learning和DQN

二面(2小时30分钟)
实习乃至秋招面的最久的一轮面试了,从晚上七点多面到十点,最后人都麻了🥵,面试官估计要下班了结束了面试🐱

1. 介绍论文,主包是做强化学习相关的,围绕问了很多强化学习算法(GRPO,PPO,reward model),介绍马尔可夫决策过程。
2. bf16、fp16和fp32,并进行计算。
3. lora微调的细节,量化相关知识
然后开始漫长的手撕过程🥵
4. 手撕ppo
5. 算马尔可夫决策过程的γ阈值,我感觉是个无穷级数?
6. 算模型sft的参数量大小及显卡利用率
7. 是否重合链表(hot100)
8. 如何使得一个输入向量x在经过一个或多个全连接层后,其输出向量y所在子空间基底尽可能接近标准正交基

三面(面委会面)(30分钟)
1. 介绍第一篇顶会论文(共享屏幕)
2. 介绍第二篇顶会论文
3. 不同强化学习之间的区别
4. 和使用强化学习训练大模型相比,使用强化学习训练小模型需要做出哪些改变

hr面(30分钟)
常规的hr面问题,主要问来wx的意向。

感觉前几面比较侧重技术细节,面委会感觉就比较侧重聊未来技术的发展,个人感觉前几面的压力比较大😼
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

点赞 评论 收藏
分享
面试官一上来没问传统的八股,直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft,根本就没有训练数据,你这个场景还得是多轮的,用户又不是报菜名贯口选手,张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据,从哪开始炼?先搞数据吧。现在海底捞门店全是 iPad 和小程序点单,数据形态是用户行为轨迹(trajectory),不是对话:- 选锅底(番茄 + 牛油)- 加菜、撤菜- 翻页停留(隐式反馈)- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话,再喂模型学。目标语料长这样 👇▎ Agent:先看锅底?▎ 用户:有人吃辣有人不吃。▎ Agent:番茄牛油鸳鸯,行么?▎ 用户:可以,麻度调到 1。▎ Agent:开始点涮菜吧。▎ 用户:来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话,SFT 阶段仅计算 Agent 那一侧的 loss(User轮次全 mask 掉),不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器:- 输入种子 profile:黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后,模拟器接力生成第二轮回应,往返多轮- profile 里塞一个 「结束点餐」special token,控制对话什么时候自然停下有了这个模拟器,才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计?我的思路是全部做成 verifiable reward,避免 reward hacking:符合历史人均消费客单价+100分,点餐分量合理+80分,荤素分布合理或符合历史分布+60分,命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配,,引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问,这么做的大模型应用真比直接点餐体验好吗?我愣住了,你们招这岗位,不就是要做这个事吗。。。为啥还要质疑存在的合理性?我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了
查看3道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务