字节大模型算法一面 1h 攒人品
发点面经攒攒人品~
1.实习拷打
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文拷打
1.实习拷打
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样 为什么用根号d_k
4.Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数
9.知道deepspeed和megatron吗?分别介绍一下
10.论文拷打
全部评论
佬能说下哪个部分吗
相关推荐
查看2道真题和解析