算法岗面试八股(一)
深度学习基础
1. LN和BN的原理和区别
2. 交叉熵的数学推导
3. 交叉熵的代码手写
4. sigmoid的代码手写
5. 手撕多头注意力
6. ReLU为什么能缓解梯度消失
7. Adam优化器原理
8. AUC计算方法
9. Python装饰器作用
10. KL散度
11. softmax公式
12. 梯度消失和梯度爆炸如何缓解
13. 手撕NMS过程
14. L1和L2正则的区别
15. BN中可学习参数如何获取
16. 如何缓解过拟合
17. 介绍一下dropout
多模态/NLP算法
1. 介绍dpo算法原理
2. gpt和bert的结构和参数量
3. flash attention原理
4. bert预训练任务,embedding
5. fp16量化训练的策略
6. qformer原理
7. 了解哪些位置编码及原理
8. clip原理
9. blip2架构
10. sft,lora和pretrain的区别
11. llava和llama的区别
12. 手撕BCE,InfoNCE损失
13. 什么是大模型幻觉
14. 混合精度训练是什么
15. 很多大模型decoder-only原因
16. 手撕RMSNorm
17. deepspeed原理及使用
18. peft微调介绍一下
19. 介绍一下RAG
AIGC生成式
1. vit,dit原理
2. ddpm/ddim原理,区别
3. ae,vae,vq-vae的原理与区别
4. U-net网络设计思路
5. 怎么保证长视频一致性
6. 怎么保证背景一致性
7. cross attention用法
8. svd原理
#算法##大模型##实习##找工作##博士##硕士#
1. LN和BN的原理和区别
2. 交叉熵的数学推导
3. 交叉熵的代码手写
4. sigmoid的代码手写
5. 手撕多头注意力
6. ReLU为什么能缓解梯度消失
7. Adam优化器原理
8. AUC计算方法
9. Python装饰器作用
10. KL散度
11. softmax公式
12. 梯度消失和梯度爆炸如何缓解
13. 手撕NMS过程
14. L1和L2正则的区别
15. BN中可学习参数如何获取
16. 如何缓解过拟合
17. 介绍一下dropout
多模态/NLP算法
1. 介绍dpo算法原理
2. gpt和bert的结构和参数量
3. flash attention原理
4. bert预训练任务,embedding
5. fp16量化训练的策略
6. qformer原理
7. 了解哪些位置编码及原理
8. clip原理
9. blip2架构
10. sft,lora和pretrain的区别
11. llava和llama的区别
12. 手撕BCE,InfoNCE损失
13. 什么是大模型幻觉
14. 混合精度训练是什么
15. 很多大模型decoder-only原因
16. 手撕RMSNorm
17. deepspeed原理及使用
18. peft微调介绍一下
19. 介绍一下RAG
AIGC生成式
1. vit,dit原理
2. ddpm/ddim原理,区别
3. ae,vae,vq-vae的原理与区别
4. U-net网络设计思路
5. 怎么保证长视频一致性
6. 怎么保证背景一致性
7. cross attention用法
8. svd原理
#算法##大模型##实习##找工作##博士##硕士#
全部评论
所有面试题可以开源给大家 后台T一下
相关推荐

点赞 评论 收藏
分享