问CLIP的训练方式。多模态大模型的embbding应该怎么训练?对比学习。会用到哪一层的特征?最后一层。场景题:给一个文本token,怎么判断在题库中是否存在,或者说它的位置。细粒度感知能力怎么提升?忽视视觉感知能力的问题怎么缓解?Qwen3-vl 的 deepstack?qwen2.5-vl 的 ViT是什么?有没有初始化的权重(面试官可能想问是不是用的原始的NaViT权重,这里我想的是ViT肯定得先预训练)业务主要是搜题和解题。代码一个 sub词的列表的子集能否组成单词 一个大数之和,字符串 s 和 t,相加后返回新的字符串