网易 AI Agent开发 二面

1. 说一下 SFT、RLHF、DPO 的区别,线上项目里你会怎么选?

答:SFT 是监督微调,核心是让模型学会“像人一样回答”,训练数据一般是 prompt-response 对,优点是简单直接、稳定、成本低,适合把基座模型先拉到业务可用水平。RLHF 是先做 SFT,再训练奖励模型,然后通过 PPO 之类的方法让模型朝着“人类更偏好”的方向优化。优点是能更细致地对齐人类偏好,缺点是链路长、训练复杂、容易不稳定。DPO 可以理解成不显式训练奖励模型、也不走复杂强化学习,而是直接利用偏好对做优化,训练上比 RLHF 更简单,效果在很多场景下也不错。如果是企业大模型应用,通常优先级往往是 SFT > DPO > RLHF。原因很现实:SFT 最容易落地,DPO 适合偏好优化,RLHF 更适合资源足、标注能力强、目标明确的团队。很多场景其实不一定值得把 PPO 全链路搭起来。

2. 如果让你构建一套高质量 SFT 数据,你会怎么做?

核心不是“多”,而是“对”。一套高质量 SFT 数据首先要覆盖真实业务场景,其次要控制回答风格一致,还要避免脏数据和互相冲突的答案。我一般会从这几个方向做:先按业务拆任务类型,比如问答、改写、总结、抽取、工具选择、拒答、安全类;再按任务设计统一的回答模板,避免同类问题风格完全不一致;数据来源可以是人工编写、历史客服语料、已有系统日志、人机协同生成,但最后都要经过清洗和抽检。比较重要的一点是,要专门构造“不能答”“信息不足”“应该澄清”的样本,不然模型会特别容易强答。另外 SFT 数据最好做版本管理,因为后面效果回退时需要快速定位是哪一批数据出了问题。

sample = {
    "instruction": "用户问某首歌的发布时间,但知识库里没有该字段时应该怎么回答?",
    "input": "这首歌是什么时候发布的?",
    "output": "当前提供的信息里没有这首歌的发布时间,建议补充歌曲名或查询官方发行信息。"
}

3. 偏好数据怎么构造

偏好数据一般不是单条答案,而是同一个问题对应多个候选回答,然后标注哪个更好。构造方式通常是:先准备一批真实 prompt,再让模型用不同温度、不同 prompt 模板、多种策略生成多个候选答案,然后由人工或半自动规则去选 preferred answer 和 rejected answer。标注标准不能太虚,至少要覆盖:正确性、完整性、是否遵循指令、是否安全、是否过度编造、语气是否符合场景。偏好数据最容易出问题的地方是标注标准不统一,今天觉得“详细好”,明天又觉得“简洁好”,最后训练出来的模型风格会摇摆。

4. 你做过数据清洗吗?大模型训练数据里最常见的问题是什么?

做过。大模型数据清洗最常见的问题不是格式,而是语义污染。比如同一个问题存在多个相互冲突的答案、网页抓下来的模板噪声很多、对话数据里角色错乱、代码块截断、表格内容丢列、乱码和重复样本太多。如果是中文数据,还会遇到口语和书面混杂、标点极乱、敏感信息残留、广告和推广话术渗进训练语料。清洗时我会先做通用规则,比如去重、去乱码、去模板,再做任务级清洗,比如问答数据看角色完整性,工具调用数据看参数是否能解析,知识问答看答案是否有来源约束。真正影响效果的往往不是脏数据比例特别高,而是高频脏模式被模型学进去了。

5. MoE 模型和 Dense 模型有什么区别?为什么很多新模型会用 MoE?

答:Dense 模型是每一层的大部分参数都参与前向计算,MoE 是每次只激活其中一部分专家网络。MoE 的优势是可以在总参数量很大的情况下,把单次推理计算量控制住,所以能兼顾模型容量和计算效率。它的核心思想是“不是所有输入都需要所有参数处理”。为什么很多新模型会用 MoE,主要因为它能提高参数利用率,让模型容量更大,对复杂任务更有表现力。但工程上 MoE 并不简单,训练和推理都更复杂,尤其是专家负载均衡、路由稳定性、跨卡通信开销,这些问题处理不好,收益会被吞掉。所以如果面试官问“是不是 MoE 一定更好”,答案一定是否定的,得看资源、框架支持和任务场景。

6. 说一下你对蒸馏的理解,大模型项目里蒸馏通常怎么用?

蒸馏本质上是让小模型去学大模型的行为,不只是学最终答案,还可以学中间分布、推理风格、格式约束。大模型项目里蒸馏经常用于两类场景:一类是把大模型的能力迁移给小模型,降低线上成本;另一类是做 task-specific 小模型,让小模型负责分类、路由、改写、召回前处理这些轻任务。蒸馏的关键不是“拿大模型生成数据喂给小模型”这么简单,而是要控制数据质量和任务边界。大模型擅长开放生成,但蒸馏到小模型后,通常更适合固定任务,而不是完全复刻通用能力。如果业务目标是提效和控成本,蒸馏往往比盲目堆更大模型更实用。

7. 为什么很多大模型上线后,

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
这个面经确定不是算法岗的吗
点赞 回复 分享
发布于 03-28 22:37 广东
总结的很好呢
点赞 回复 分享
发布于 03-24 23:07 北京

相关推荐

04-16 14:42
浙江大学 C++
暑期实习 timelinebg c9本,大二在华子实习过,所以对整个招聘的准备流程还是比较清楚的。从3月9号开始准备,一边刷leetcode、一边补八股、一边海投;最后被鹅厂收留,成为鹅孝子网易互娱 服务端年前就投过一次提前批,但当时太菜了笔试根本过不了;3月份又给我发起一次笔试邀请,但依旧是没有准备好,所以又挂了;后知后觉地了解到原来没准备好可以不开始笔试,等下一批后面抓住机会去了线下的直通面试,结果是草台班子,根本没给我预留位置(公司还提前一两天打电话邀请我),结果就是不了了之,很愤怒网易雷火 服务端雷火的笔试太难了,根本做不起,所以网申也寄了不过还是靠线下直通翻盘了,但是流程走太慢了,最后被鹅截胡3.18 线下一面面试官是校友,问题现在来看很温和,一些八股+简单问了问实习和项目+手撕1. 虚函数的实现2. 1+2+...+n 不用循环和乘法怎么算3. 多重继承时的虚函数指针4. 模板的原理,特化、偏特化5. TCP发送数据包整个网络过程,数据包怎么到路由器的6. 路由器间的最优路径选择手撕:二叉搜索树原地转成双向链表4.10 线上二面这个面试官很有趣,整体是诙谐轻松的风格,说一面问过的就不问了,题目直接就在牛客面试的ide里粘贴问我,不刁难人可跳题1. demo1和demo2表结构相同,把demo1里id=1的数据拷到demo2;但是我忘记怎么写sql语句了,讲了思路直接跳2. linux里 `ls /file 2> /dev/null` 什么意思3. localhost和127.0.0.1是什么4. 有一个函数可以拿到时间戳的年、月、日、星期、时、分、秒,怎么判断两个时间戳在同一个自然周5. IEEE754能精确表示的最大整数是多少?6. 为什么要序列化和反序列化,不能直接发送内存里的数据吗7. 100万亿数据怎么去重,用最少的空间,大致是多少空间无手撕4.16 三面(拒了,因为拿到offer了)米哈游 服务端线下直通面:不问八股,全是各种设计题,拷打地哑口无言,挂1. 一个装备合成的接口怎么设计,怎么保证不会吞我的材料2. 玩家A、B分别在两台服务器上,怎么保证一个交易系统的可靠性?3. 有一个业务需求:想在手机上通过聊天软件/通讯软件,去遥控PC上agent完成代码coding,每一步应该怎么设计。4. 欲设计一个组队匹配系统,比如1~4人组队,进入一个100人的场景服务器,给你一个agent如何完成这个需求?oppo投的系统工程师,流程太慢,还有后来发现一开始那个岗位的工作地点不太满意,改投底软了,但是流程已经被之前的岗位卡住了,所以后面也不是很感冒了4.7 一面项目+实习 40min结束4.13 二面项目+实习 40min结束整体很温和,无八股和手撕,但是流程太慢,被截胡腾讯 后台开始投的后台,但是过了一段时间被捞到了企微的客户端开发,懵懵懂懂地去试了手3.26 客户端一面总时长2h,折磨到底(强度太大+面试官说广普听不太清)开局3道手撕:1. 合并链表2. 循环数组找最小值,题面是严格递增,做完后又问非严格递增怎么办3. 手撕shared_ptr(引用计数+裸指针),我用的原子变量,然后面试官问了一些可能并发的问题,补了下互斥锁然后就拷打项目和实习,无八股,最后过了后来刷牛客发现客户端的坑,就赶紧润了,拒了二面4.1 被小程序/公众号的后台开发捞起,开启终极考验4.1 一面开局三道题:1. 括号匹配2. 寻找重复数3. 手写LRU,顺着问了LRU并发的问题然后是设计题+拷打项目和实习4.2 二面开局四道题:具体记不住了,不过应该都是leetcode原题问了几个设计题:1. chrome里是采用一个标签页一个进程还是一个标签页一个线程,为什么?2. io多路复用3. 工作线程里遇到耗时操作怎么办,如果不改异步呢?可能还有但是忘了面完后好几天没有消息,挺慌的,现在想来应该是过清明去了4.8 三面面试官比较温和,说前面手撕和拷打的够多了,这次轻松点,无手撕,问了些八股1. TCP头每个字段介绍一下2. TCP可靠传输怎么保证3. TCP的流量控制4. 服务器A向B发送文件,怎么保证B收到的是A发出的两个文件(我讲的是设计应用层协议,然后具体给出了会用到的字段)5. 如果网卡缓冲区满了会发生什么剩下就简单聊了聊项目和实习,差不多40min结束了4.14 HR面4.15 云证4.16 oc其他公司京东投了没动静,美团投了没去笔试,vivo投了没动静,滴滴投了没动静,快手投了秒挂,pdd笔试后挂,蚂蚁笔试后挂重点提一下阿里和字节:阿里hr自动给我投了ai应用开发,编程题全ak,笔试完挂,不过也是意料之中,毕竟根本和agent开发不沾边;然后我投了阿里云c++和客户端,简历挂;投了灵犀互娱笔试编程全AK,挂;字节:投了好几个后端,几个星期没动静纯装死;过了一段时间,我发现tiktop shop的流程终于有推进了,不过是挂了,最草台班子的是部门hr还加我微信说看中了我的简历问我要不要面试,我说你不是给我挂了吗,不过重新开始了面试;然后一面的时候,面试官说我的技术栈出入有点大,问我怎么处理和调整,全程就问了项目和实习,无手撕,最终不了了之感慨这次暑期实习也是挺颠沛流离的,时间紧任务重,特别是前期疯狂地投递、疯狂地笔面,但是得到的全是挂挂挂;还有有些公司真的流程太慢,很耗人心神,纯消磨意志(这点必须表扬腾讯,效率太高了)然后几乎所有的面试都问了ai的使用情况,也是间接督促我该多看点agent内容了下面将成为严肃鹅孝子,开启一段广漂
点赞 评论 收藏
分享
评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务