网易 AI Agent开发 二面
1. 说一下 SFT、RLHF、DPO 的区别,线上项目里你会怎么选?
答:SFT 是监督微调,核心是让模型学会“像人一样回答”,训练数据一般是 prompt-response 对,优点是简单直接、稳定、成本低,适合把基座模型先拉到业务可用水平。RLHF 是先做 SFT,再训练奖励模型,然后通过 PPO 之类的方法让模型朝着“人类更偏好”的方向优化。优点是能更细致地对齐人类偏好,缺点是链路长、训练复杂、容易不稳定。DPO 可以理解成不显式训练奖励模型、也不走复杂强化学习,而是直接利用偏好对做优化,训练上比 RLHF 更简单,效果在很多场景下也不错。如果是企业大模型应用,通常优先级往往是 SFT > DPO > RLHF。原因很现实:SFT 最容易落地,DPO 适合偏好优化,RLHF 更适合资源足、标注能力强、目标明确的团队。很多场景其实不一定值得把 PPO 全链路搭起来。
2. 如果让你构建一套高质量 SFT 数据,你会怎么做?
核心不是“多”,而是“对”。一套高质量 SFT 数据首先要覆盖真实业务场景,其次要控制回答风格一致,还要避免脏数据和互相冲突的答案。我一般会从这几个方向做:先按业务拆任务类型,比如问答、改写、总结、抽取、工具选择、拒答、安全类;再按任务设计统一的回答模板,避免同类问题风格完全不一致;数据来源可以是人工编写、历史客服语料、已有系统日志、人机协同生成,但最后都要经过清洗和抽检。比较重要的一点是,要专门构造“不能答”“信息不足”“应该澄清”的样本,不然模型会特别容易强答。另外 SFT 数据最好做版本管理,因为后面效果回退时需要快速定位是哪一批数据出了问题。
sample = {
"instruction": "用户问某首歌的发布时间,但知识库里没有该字段时应该怎么回答?",
"input": "这首歌是什么时候发布的?",
"output": "当前提供的信息里没有这首歌的发布时间,建议补充歌曲名或查询官方发行信息。"
}
3. 偏好数据怎么构造
偏好数据一般不是单条答案,而是同一个问题对应多个候选回答,然后标注哪个更好。构造方式通常是:先准备一批真实 prompt,再让模型用不同温度、不同 prompt 模板、多种策略生成多个候选答案,然后由人工或半自动规则去选 preferred answer 和 rejected answer。标注标准不能太虚,至少要覆盖:正确性、完整性、是否遵循指令、是否安全、是否过度编造、语气是否符合场景。偏好数据最容易出问题的地方是标注标准不统一,今天觉得“详细好”,明天又觉得“简洁好”,最后训练出来的模型风格会摇摆。
4. 你做过数据清洗吗?大模型训练数据里最常见的问题是什么?
做过。大模型数据清洗最常见的问题不是格式,而是语义污染。比如同一个问题存在多个相互冲突的答案、网页抓下来的模板噪声很多、对话数据里角色错乱、代码块截断、表格内容丢列、乱码和重复样本太多。如果是中文数据,还会遇到口语和书面混杂、标点极乱、敏感信息残留、广告和推广话术渗进训练语料。清洗时我会先做通用规则,比如去重、去乱码、去模板,再做任务级清洗,比如问答数据看角色完整性,工具调用数据看参数是否能解析,知识问答看答案是否有来源约束。真正影响效果的往往不是脏数据比例特别高,而是高频脏模式被模型学进去了。
5. MoE 模型和 Dense 模型有什么区别?为什么很多新模型会用 MoE?
答:Dense 模型是每一层的大部分参数都参与前向计算,MoE 是每次只激活其中一部分专家网络。MoE 的优势是可以在总参数量很大的情况下,把单次推理计算量控制住,所以能兼顾模型容量和计算效率。它的核心思想是“不是所有输入都需要所有参数处理”。为什么很多新模型会用 MoE,主要因为它能提高参数利用率,让模型容量更大,对复杂任务更有表现力。但工程上 MoE 并不简单,训练和推理都更复杂,尤其是专家负载均衡、路由稳定性、跨卡通信开销,这些问题处理不好,收益会被吞掉。所以如果面试官问“是不是 MoE 一定更好”,答案一定是否定的,得看资源、框架支持和任务场景。
6. 说一下你对蒸馏的理解,大模型项目里蒸馏通常怎么用?
蒸馏本质上是让小模型去学大模型的行为,不只是学最终答案,还可以学中间分布、推理风格、格式约束。大模型项目里蒸馏经常用于两类场景:一类是把大模型的能力迁移给小模型,降低线上成本;另一类是做 task-specific 小模型,让小模型负责分类、路由、改写、召回前处理这些轻任务。蒸馏的关键不是“拿大模型生成数据喂给小模型”这么简单,而是要控制数据质量和任务边界。大模型擅长开放生成,但蒸馏到小模型后,通常更适合固定任务,而不是完全复刻通用能力。如果业务目标是提效和控成本,蒸馏往往比盲目堆更大模型更实用。
7. 为什么很多大模型上线后,
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
MiniMax成长空间 42人发布