去哪儿大模型开发一面

1. 因果推断在多模态训练里能解决什么问题，为什么不是普通相关性学习就够了

多模态场景里最容易出的问题就是模型学到“看起来相关”的捷径，而不是任务真正依赖的稳定因素。比如图像里某类背景、拍摄角度、文本描述习惯，可能和标签高度共现，但它们并不是真正决定结论的原因。因果推断的价值在于尽量把这些混杂因素拆出来，让模型更关注跨环境都稳定成立的信号。

如果只靠相关性学习，训练集上可能效果很好，但一换数据源、设备、标注风格，性能就会掉得很厉害。因果思路不一定意味着一定要上完整的因果图模型，也可以体现在样本构造、环境分组训练、反事实增强和不变风险约束上。它本质上是在问：模型到底学到了可迁移规律，还是只记住了数据集偏见。

2. 如果不用多模态大模型，而是做跨模态表征对齐，核心难点在哪里

跨模态表征对齐的难点不只是“把图像和文本映射到同一个空间”，而是不同模态天然信息密度不同、粒度不同、噪声来源也不同。图像往往偏局部、连续和高维，文本是离散、抽象和压缩过的信息，直接对齐时很容易出现一种模态主导另一种模态的问题。

真正做的时候，通常要解决三个层面的事：一是语义层面对齐，也就是同一对象是否在两个模态里表达一致；二是粒度层面对齐，整图和短句、局部区域和实体词、时间片段和事件描述能不能对应上；三是训练稳定性，对比学习如果负样本构造不好，很容易学出表面可分但业务不可用的空间。

3. 多模态任务里为什么经常需要中间表示，而不是端到端直接生成

端到端当然简洁，但在业务系统里，端到端往往意味着定位问题困难、可解释性差、约束能力弱。中间表示的作用是把复杂任务拆成几个可观察阶段，比如先抽取图像证据、再做结构化判断、最后再生成自然语言结果。这样不仅更容易排查错误，也更方便做规则约束和局部优化。

而且中间表示还能缓解模态间的信息挤压问题。很多任务不是模型不会生成，而是在输入阶段就已经把关键细节冲掉了。把中间状态保留下来，等于给推理链多加了一层“证据缓冲”。

4. 你怎么理解多模态任务里的信息瓶颈

信息瓶颈可以理解成，模型在从高维输入压缩到可用于下游决策的表示时，不可避免会丢掉一部分信息。问题不在于“会不会丢”，而在于“丢掉的是噪声还是关键证据”。在多模态场景里，这个问题更明显，因为不同模态本身的信息密度不一样，压缩策略稍微不合适，就可能把最有用的局部线索给丢了。

从工程角度看，信息瓶颈会体现在几个地方，比如图像分辨率过低、patch 粒度过粗、文本摘要过早、检索拼接太激进，最后都可能让模型看到的是一个“干净但没用”的输入。真正优化时，不是单纯把模型做大，而是让关键证据穿过瓶颈时尽量别损失掉。

5. 训练数据配比为什么会影响后训练效果，不是数据越多越好吗

数据越多不代表越有效，尤其在后训练阶段，模型对数据分布非常敏感。如果通用语料、指令数据、拒答数据、偏好数据和任务特定数据混在一起比例失衡，很容易出现一种能力变强、另一种能力明显退化的现象。比如格式学得更好了，但推理深度变浅；或者回复更安全了，但任务完成率明显下降。

所以数据配比本质上是在调模型“更偏向什么行为”。后训练不是单纯补知识，而是在重塑模型的行为分布。做得比较稳的方法通常是分阶段配比，而不是一开始就把所有数据搅在一起。

6. 为什么有些场景需要自己构造偏好数据，而不是直接套公开数据集

公开偏好数据的好处是便宜、通用、规模大，但它默认的“好回答”标准通常偏向自然语言流畅、礼貌、帮助性。业务系统里真正重要的偏好往往完全不同，比如证据优先、格式严格、宁可拒答也不乱答、输出必须可执行。这些标准如果不写进偏好数据，模型最后学到的只是“像助手”，而不是“像系统”。

自己构造偏好数据的关键，不是追求数量，而是把业务里的决策标准明确表达出来。同一个问题下，chosen 和 rejected 的差别最好不是写作风格，而是业务价值差异。

preference_pair = {
    "prompt": "根据输入信息生成结论",
    "chosen": "证据不足，当前只能给出低置信度判断，建议补充字段A和字段B。",
    "rejected": "根据现有信息基本可以确定结果，没有必要继续核实。"
}

7. DPO 为什么不需要显式奖励模型，它优化的到底是什么

DPO 的关键思想是把偏好学习转成一个更直接的概率对齐问题。它不是先单独训练一个奖励模型，再用 RL 去优化策略，而是直接利用 chosen / rejected 对，推动模型提高 chosen 相对 rejected 的条件概率。这样工程链路更短，也少了一层奖励模型误差传递。

它优化的不是绝对意义上的“回答有多好”，而是“在同样输入下，模型是否更偏向被偏好的一类输出”。所以 DPO 的上限其实很依赖偏好对本身的质量。如果偏好数据区分度不清晰，DPO 很容易学到模糊行为。

8. PPO、DPO、GRPO 三种方法从训练稳定性上怎么比较

PPO 更完整，适合环境反馈明确、需要长期决策的场景，但训练链路长、超参多、对 reward 质量很敏感。DPO 更轻，适合偏好数据已经准备得比较充分的任务，训练实现也更稳定，但它本质上还是离线偏好优化，对复杂交互场景覆盖有限。GRPO 的优势在于利用组内相对比较减少对额外价值网络的依赖，在大模型训练里有一定实用性，但前提是你能拿到足够有区分度的候选组。

如果从二面角度回答，我会强调没有哪种方法天然更好，关键是反馈信号长什么样。如果只有静态偏好对，DPO 更合适；如果任务有明确可执行反馈，PPO/GRPO 的空间会更大。