网易 AI Agent开发二面

1. 说一下 SFT、RLHF、DPO 的区别，线上项目里你会怎么选？

答：SFT 是监督微调，核心是让模型学会“像人一样回答”，训练数据一般是 prompt-response 对，优点是简单直接、稳定、成本低，适合把基座模型先拉到业务可用水平。RLHF 是先做 SFT，再训练奖励模型，然后通过 PPO 之类的方法让模型朝着“人类更偏好”的方向优化。优点是能更细致地对齐人类偏好，缺点是链路长、训练复杂、容易不稳定。DPO 可以理解成不显式训练奖励模型、也不走复杂强化学习，而是直接利用偏好对做优化，训练上比 RLHF 更简单，效果在很多场景下也不错。如果是企业大模型应用，通常优先级往往是 SFT > DPO > RLHF。原因很现实：SFT 最容易落地，DPO 适合偏好优化，RLHF 更适合资源足、标注能力强、目标明确的团队。很多场景其实不一定值得把 PPO 全链路搭起来。

2. 如果让你构建一套高质量 SFT 数据，你会怎么做？

核心不是“多”，而是“对”。一套高质量 SFT 数据首先要覆盖真实业务场景，其次要控制回答风格一致，还要避免脏数据和互相冲突的答案。我一般会从这几个方向做：先按业务拆任务类型，比如问答、改写、总结、抽取、工具选择、拒答、安全类；再按任务设计统一的回答模板，避免同类问题风格完全不一致；数据来源可以是人工编写、历史客服语料、已有系统日志、人机协同生成，但最后都要经过清洗和抽检。比较重要的一点是，要专门构造“不能答”“信息不足”“应该澄清”的样本，不然模型会特别容易强答。另外 SFT 数据最好做版本管理，因为后面效果回退时需要快速定位是哪一批数据出了问题。

sample = {
    "instruction": "用户问某首歌的发布时间，但知识库里没有该字段时应该怎么回答？",
    "input": "这首歌是什么时候发布的？",
    "output": "当前提供的信息里没有这首歌的发布时间，建议补充歌曲名或查询官方发行信息。"
}

3. 偏好数据怎么构造

偏好数据一般不是单条答案，而是同一个问题对应多个候选回答，然后标注哪个更好。构造方式通常是：先准备一批真实 prompt，再让模型用不同温度、不同 prompt 模板、多种策略生成多个候选答案，然后由人工或半自动规则去选 preferred answer 和 rejected answer。标注标准不能太虚，至少要覆盖：正确性、完整性、是否遵循指令、是否安全、是否过度编造、语气是否符合场景。偏好数据最容易出问题的地方是标注标准不统一，今天觉得“详细好”，明天又觉得“简洁好”，最后训练出来的模型风格会摇摆。

4. 你做过数据清洗吗？大模型训练数据里最常见的问题是什么？

做过。大模型数据清洗最常见的问题不是格式，而是语义污染。比如同一个问题存在多个相互冲突的答案、网页抓下来的模板噪声很多、对话数据里角色错乱、代码块截断、表格内容丢列、乱码和重复样本太多。如果是中文数据，还会遇到口语和书面混杂、标点极乱、敏感信息残留、广告和推广话术渗进训练语料。清洗时我会先做通用规则，比如去重、去乱码、去模板，再做任务级清洗，比如问答数据看角色完整性，工具调用数据看参数是否能解析，知识问答看答案是否有来源约束。真正影响效果的往往不是脏数据比例特别高，而是高频脏模式被模型学进去了。

5. MoE 模型和 Dense 模型有什么区别？为什么很多新模型会用 MoE？

答：Dense 模型是每一层的大部分参数都参与前向计算，MoE 是每次只激活其中一部分专家网络。MoE 的优势是可以在总参数量很大的情况下，把单次推理计算量控制住，所以能兼顾模型容量和计算效率。它的核心思想是“不是所有输入都需要所有参数处理”。为什么很多新模型会用 MoE，主要因为它能提高参数利用率，让模型容量更大，对复杂任务更有表现力。但工程上 MoE 并不简单，训练和推理都更复杂，尤其是专家负载均衡、路由稳定性、跨卡通信开销，这些问题处理不好，收益会被吞掉。所以如果面试官问“是不是 MoE 一定更好”，答案一定是否定的，得看资源、框架支持和任务场景。

6. 说一下你对蒸馏的理解，大模型项目里蒸馏通常怎么用？

蒸馏本质上是让小模型去学大模型的行为，不只是学最终答案，还可以学中间分布、推理风格、格式约束。大模型项目里蒸馏经常用于两类场景：一类是把大模型的能力迁移给小模型，降低线上成本；另一类是做 task-specific 小模型，让小模型负责分类、路由、改写、召回前处理这些轻任务。蒸馏的关键不是“拿大模型生成数据喂给小模型”这么简单，而是要控制数据质量和任务边界。大模型擅长开放生成，但蒸馏到小模型后，通常更适合固定任务，而不是完全复刻通用能力。如果业务目标是提效和控成本，蒸馏往往比盲目堆更大模型更实用。