1. 因果推断在多模态训练里能解决什么问题,为什么不是普通相关性学习就够了多模态场景里最容易出的问题就是模型学到“看起来相关”的捷径,而不是任务真正依赖的稳定因素。比如图像里某类背景、拍摄角度、文本描述习惯,可能和标签高度共现,但它们并不是真正决定结论的原因。因果推断的价值在于尽量把这些混杂因素拆出来,让模型更关注跨环境都稳定成立的信号。如果只靠相关性学习,训练集上可能效果很好,但一换数据源、设备、标注风格,性能就会掉得很厉害。因果思路不一定意味着一定要上完整的因果图模型,也可以体现在样本构造、环境分组训练、反事实增强和不变风险约束上。它本质上是在问:模型到底学到了可迁移规律,还是只记住了数据...