小红书大模型算法 实习面经
继续来分享下之前的面经~欢迎友好讨论,信息共享
1. LLaMA 相比原始 Transformer 架构有哪些改进?
2. 微调(Fine-tuning)和对齐(Alignment)的区别?
3. 模型微调到什么程度才需要进行对齐?
4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
7. 损失采样(Loss Sampling)相关问题?
8. 目前了解哪些大模型架构?例如 LLaMA 等。
9. 是否了解 PagedAttention?
10. LoRA 中两个低秩矩阵是如何初始化的?
11. PPO 中的四种模型分别是什么?各自的作用是什么?
1. LLaMA 相比原始 Transformer 架构有哪些改进?
2. 微调(Fine-tuning)和对齐(Alignment)的区别?
3. 模型微调到什么程度才需要进行对齐?
4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
7. 损失采样(Loss Sampling)相关问题?
8. 目前了解哪些大模型架构?例如 LLaMA 等。
9. 是否了解 PagedAttention?
10. LoRA 中两个低秩矩阵是如何初始化的?
11. PPO 中的四种模型分别是什么?各自的作用是什么?
全部评论
相关推荐
查看17道真题和解析 点赞 评论 收藏
分享
03-15 14:19
门头沟学院 Java 点赞 评论 收藏
分享