LLM面经——

多模态大模型训练中”模态懒惰“问题如何解决?
下面是具体的解决方法,主要分为训练方式、算法设计和训练数据分布优化。
0️⃣训练方式这里就不做赘述了,比较常见的是渐进式解冻训练:先fix住某一模态编码器权重,再训练另一模态权重,最后全网络整体训练。
1️⃣一、算法细节设计
1.最小化模态间投影误差
结合最优传输理论(Optimal Transport)建模分布对齐,解决语义密度差异问题。
主要包括下面四个核心步骤:
1) 交替单模态学习:把传统的多模态联合优化过程转变为交替的单模态学习过程。在每个训练步骤中,只优化一个模态的编码器,从而减少模态之间的干扰,使每个模态都能独立地被优化。
2)共享头部:每个模态独立优化,但用一个跨所有模态的共享头部来捕获跨模态的交互信息。共享头部在不同模态之间持续优化,有助于整合多模态信息。
3)梯度修改机制:为了防止共享头部在遇到新模态时丢失之前学习到的信息(即模态遗忘问题),通过正交化梯度方向来减少不同模态之间的干扰。
4)推理阶段动态模态融合:在inference阶段,基于不确定性的模型融合机制来整合多模态信息;评估每个模态在预测中的重要性,并根据这个评估来分配权重,然后结合所有模态的预测结果。
2.模态间交叉引导融合不同模态特征差异
比较常见的是跨模态交叉注意力(Cross-modal Cross-Attention)显式建模不同模态特征的融合,Query来自一模态,Key/Value来自另一模态;或者基于输入内容自适应调整各模态贡献权重,抑制低质量模态噪声。
2️⃣二、训练数据分布优化
1.在不同模态的不同语义层级设计对齐约束
有一个非常关键的视觉专家集成(Mixture of Visual Experts),可以利用多种视觉专家模型来提供图像理解的中间信息。
2.主动学习实现更平衡的数据选择
某个模态特征时的变化,来估计该模态特征的边际贡献,然后对所有可能的子集选择取平均值,从而得到该模态的Shapley值。
3.引导偏好优化(BPO),惩罚某一模态的依赖行为
可以通过引入扰动来减少某些模态的信息内容,迫使模型在生成负面响应时依赖特定模态。比如前面提到的两个”模态偏差“的例子,棕色的北极熊和对于”房子在左边吗?“问题的不精准回答,把这些生成的偏差响应都作为负面样本,形成了一个新的偏好优化数据集。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

视觉Agent算法实习生职位描述基础研发平台是美团的核心技术平台,旨在打造公司级高性能技术架构、数据科学、服务运维、开发质效提升、信息安全、视觉智能以及企业办公数字智能化等系列关键能力,持续强化平台技术,保障基础设施稳定安全、低成本、高效可持续,全面赋能公司各个业务高速发展。在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。真诚地邀请你,和我们一起驱动技术发展,创造行业价值。岗位职责参与视觉Agent系统的设计与开发,协助构建融合多模态感知与决策的智能系统。支持核心算法优化,包括多模态大模型感知、图像生成、跨模态对齐等技术方向。协助多智能体协作机制研究,探索实时推理、长上下文处理等关键能力。参与大模型在知识推理、指令理解等能力的落地应用开发。配合业务场景进行技术验证,输出可行性方案与技术文档。跟踪CV与LLM交叉领域前沿技术,完成技术调研与原型开发。岗位基本需求计算机/人工智能/电子工程等专业硕士及以上在读。熟悉PyTorch框架,具备扎实的Python/C++编码能力。了解主流CV模型(CNN/Transformer)及多模态技术原理。对Agent架构有基本认知,有相关课程/项目经验者优先。具备优秀的学习能力和技术热情。具备以下条件者优先在CVPR/ICCV等顶会发表过相关论文,或参与过AI竞赛获奖。有开源项目贡献经历(GitHub项目维护/主流框架PR等)。熟悉LangChain/AutoGen等Agent框架,或参与过工具调用类项目。具备多模态大模型微调或轻量化部署经验。岗位亮点深度参与亿级用户场景的AI技术落地,获得完整项目经验。掌握视觉Agent领域核心技术栈,接触行业领先解决方案。一对一mentor指导,系统提升算法工程化能力。联系方式:wangzhiling02@meituan.com【简历可以直接发邮箱】
投递美团等公司8个岗位
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务