去哪儿 大模型开发 一面

1. 因果推断在多模态训练里能解决什么问题,为什么不是普通相关性学习就够了

多模态场景里最容易出的问题就是模型学到“看起来相关”的捷径,而不是任务真正依赖的稳定因素。比如图像里某类背景、拍摄角度、文本描述习惯,可能和标签高度共现,但它们并不是真正决定结论的原因。因果推断的价值在于尽量把这些混杂因素拆出来,让模型更关注跨环境都稳定成立的信号。

如果只靠相关性学习,训练集上可能效果很好,但一换数据源、设备、标注风格,性能就会掉得很厉害。因果思路不一定意味着一定要上完整的因果图模型,也可以体现在样本构造、环境分组训练、反事实增强和不变风险约束上。它本质上是在问:模型到底学到了可迁移规律,还是只记住了数据集偏见。

2. 如果不用多模态大模型,而是做跨模态表征对齐,核心难点在哪里

跨模态表征对齐的难点不只是“把图像和文本映射到同一个空间”,而是不同模态天然信息密度不同、粒度不同、噪声来源也不同。图像往往偏局部、连续和高维,文本是离散、抽象和压缩过的信息,直接对齐时很容易出现一种模态主导另一种模态的问题。

真正做的时候,通常要解决三个层面的事:一是语义层面对齐,也就是同一对象是否在两个模态里表达一致;二是粒度层面对齐,整图和短句、局部区域和实体词、时间片段和事件描述能不能对应上;三是训练稳定性,对比学习如果负样本构造不好,很容易学出表面可分但业务不可用的空间。

3. 多模态任务里为什么经常需要中间表示,而不是端到端直接生成

端到端当然简洁,但在业务系统里,端到端往往意味着定位问题困难、可解释性差、约束能力弱。中间表示的作用是把复杂任务拆成几个可观察阶段,比如先抽取图像证据、再做结构化判断、最后再生成自然语言结果。这样不仅更容易排查错误,也更方便做规则约束和局部优化。

而且中间表示还能缓解模态间的信息挤压问题。很多任务不是模型不会生成,而是在输入阶段就已经把关键细节冲掉了。把中间状态保留下来,等于给推理链多加了一层“证据缓冲”。

4. 你怎么理解多模态任务里的信息瓶颈

信息瓶颈可以理解成,模型在从高维输入压缩到可用于下游决策的表示时,不可避免会丢掉一部分信息。问题不在于“会不会丢”,而在于“丢掉的是噪声还是关键证据”。在多模态场景里,这个问题更明显,因为不同模态本身的信息密度不一样,压缩策略稍微不合适,就可能把最有用的局部线索给丢了。

从工程角度看,信息瓶颈会体现在几个地方,比如图像分辨率过低、patch 粒度过粗、文本摘要过早、检索拼接太激进,最后都可能让模型看到的是一个“干净但没用”的输入。真正优化时,不是单纯把模型做大,而是让关键证据穿过瓶颈时尽量别损失掉。

5. 训练数据配比为什么会影响后训练效果,不是数据越多越好吗

数据越多不代表越有效,尤其在后训练阶段,模型对数据分布非常敏感。如果通用语料、指令数据、拒答数据、偏好数据和任务特定数据混在一起比例失衡,很容易出现一种能力变强、另一种能力明显退化的现象。比如格式学得更好了,但推理深度变浅;或者回复更安全了,但任务完成率明显下降。

所以数据配比本质上是在调模型“更偏向什么行为”。后训练不是单纯补知识,而是在重塑模型的行为分布。做得比较稳的方法通常是分阶段配比,而不是一开始就把所有数据搅在一起。

6. 为什么有些场景需要自己构造偏好数据,而不是直接套公开数据集

公开偏好数据的好处是便宜、通用、规模大,但它默认的“好回答”标准通常偏向自然语言流畅、礼貌、帮助性。业务系统里真正重要的偏好往往完全不同,比如证据优先、格式严格、宁可拒答也不乱答、输出必须可执行。这些标准如果不写进偏好数据,模型最后学到的只是“像助手”,而不是“像系统”。

自己构造偏好数据的关键,不是追求数量,而是把业务里的决策标准明确表达出来。同一个问题下,chosen 和 rejected 的差别最好不是写作风格,而是业务价值差异。

preference_pair = {
    "prompt": "根据输入信息生成结论",
    "chosen": "证据不足,当前只能给出低置信度判断,建议补充字段A和字段B。",
    "rejected": "根据现有信息基本可以确定结果,没有必要继续核实。"
}

7. DPO 为什么不需要显式奖励模型,它优化的到底是什么

DPO 的关键思想是把偏好学习转成一个更直接的概率对齐问题。它不是先单独训练一个奖励模型,再用 RL 去优化策略,而是直接利用 chosen / rejected 对,推动模型提高 chosen 相对 rejected 的条件概率。这样工程链路更短,也少了一层奖励模型误差传递。

它优化的不是绝对意义上的“回答有多好”,而是“在同样输入下,模型是否更偏向被偏好的一类输出”。所以 DPO 的上限其实很依赖偏好对本身的质量。如果偏好数据区分度不清晰,DPO 很容易学到模糊行为。

8. PPO、DPO、GRPO 三种方法从训练稳定性上怎么比较

PPO 更完整,适合环境反馈明确、需要长期决策的场景,但训练链路长、超参多、对 reward 质量很敏感。DPO 更轻,适合偏好数据已经准备得比较充分的任务,训练实现也更稳定,但它本质上还是离线偏好优化,对复杂交互场景覆盖有限。GRPO 的优势在于利用组内相对比较减少对额外价值网络的依赖,在大模型训练里有一定实用性,但前提是你能拿到足够有区分度的候选组。

如果从二面角度回答,我会强调没有哪种方法天然更好,关键是反馈信号长什么样。如果只有静态偏好对,DPO 更合适;如果任务有明确可执行反馈,PPO/GRPO 的空间会更大。

9. 奖励建模里最怕什么,为什么奖励函数很容易被模型“钻空子”

最怕的不是奖励太低,而是奖励定义得太单一。只要奖励函数和真实目标之间有缝隙,模型很快就会找到投机路径。比如你奖励格式正确,它就学会写得很规整但没内容;你奖励长度合适,它就学会产出均匀但空洞的答案;你奖励

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务