1.Lora 了解多少? lora 一定比 sft 快吗? 为什么快,哪一部分快?2.反向传播如何更新梯度的,讲一下公式。3.一个图片传进 vit,有多少 token? (逆天,差点忘了)然后如何和语言部分拼接。4.GUI agent 长程规划差,你们如何解决的? 车载场景下有什么新 idea?5.你的训练为什么分为两个阶段,rl 和 sft 有什么不同?多模态做 rl 优势是什么?强化哪一部分内容?6.训了 image encoder 的部分吗?7.qformer 和目前的对齐层有什么区别? 场景有哪些?Qformer 如何计算的,还有部分场景用 qformer 为什么?8.diffusion 有了解过吗?loss 是什么?手推一下 kl 散度,生成统一理解下 token 流动说下