字节多模态大模型实习一面
发一下问题给大家参考,有面试过同岗的朋友欢迎评论区交流,攒人品中
1.实习拷打
2.知道 deepspeed 和 megatron 吗,分别介绍一下
3.Decoder 文本生成有哪几种方法
4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k
5.说一下 Decoder 的因果注意力, QKV 分别来自哪
6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构
7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数
8. 介绍一下 ALBEF 、 BLIP
1.实习拷打
2.知道 deepspeed 和 megatron 吗,分别介绍一下
3.Decoder 文本生成有哪几种方法
4.Attention 为什么要做scaled ,不做会怎么样,为什么用根号 d _ k
5.说一下 Decoder 的因果注意力, QKV 分别来自哪
6.深挖多模态大模型论文用的video - llama ,讲一下大模型的结构
7.LoRA 初始化怎么做的,用的秩是多少,为什么不选其他的数
8. 介绍一下 ALBEF 、 BLIP
全部评论
相关推荐
01-29 11:37
东南大学 测试开发 点赞 评论 收藏
分享
莉莉丝游戏公司福利 690人发布

