字节大模型算法 日常实习一面
攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.深挖多模态论文介绍transformer架构
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文用的deepspeed详细讲了一下三个stage分别是什么
1.深挖多模态论文介绍transformer架构
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文用的deepspeed详细讲了一下三个stage分别是什么
全部评论
请问是博士学历嘛
相关推荐
03-15 14:19
门头沟学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看11道真题和解析