1.自我介绍和过项目2.知道 deepspeed 和 megatron 吗,分别介绍一下3.Decoder 文本生成有哪几种方法4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k5.说一下 Decoder 的因果注意力, QKV 分别来自哪6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数8. 介绍一下 ALBEF 、 BLIP