Apple大模型算法面经分享 攒人品中
继续来分享下之前的面经~欢迎友好讨论,信息共享
1. 怎么评估大模型合成数据的输出质量
2. “把优化过程压缩成 COT ”,训练数据长什么样?
3. 人工标注的数据,标注规范是什么,最终怎么对齐人的主观 bias?
4. 分类模型的数据配比是怎么设计的?和真实分布对齐了吗?理论依据依据是什么?
5. 计算模型训练的 FLOPs
6.前向传播和后向传播哪个计算量更大?大多少倍?为什么?
7. 模型部署时用的什么推理框架?vLLM 还是别的?vLLM 做过什么优化吗?比如PD分离之类的?最终效果如果,对比SGLang
8. GRPO的分布式策略,具体 TP、DP 参数是什么?为什么这么分配?
9. 如果同样数据去训70B,学习率应该更高还是更低?为什么?
10. 详细讲一下 reward model 怎么设计的,遇到过hacking,如何解决
11. 如果把这个 reward 设计迁移到对话任务,你会怎么做?
1. 怎么评估大模型合成数据的输出质量
2. “把优化过程压缩成 COT ”,训练数据长什么样?
3. 人工标注的数据,标注规范是什么,最终怎么对齐人的主观 bias?
4. 分类模型的数据配比是怎么设计的?和真实分布对齐了吗?理论依据依据是什么?
5. 计算模型训练的 FLOPs
6.前向传播和后向传播哪个计算量更大?大多少倍?为什么?
7. 模型部署时用的什么推理框架?vLLM 还是别的?vLLM 做过什么优化吗?比如PD分离之类的?最终效果如果,对比SGLang
8. GRPO的分布式策略,具体 TP、DP 参数是什么?为什么这么分配?
9. 如果同样数据去训70B,学习率应该更高还是更低?为什么?
10. 详细讲一下 reward model 怎么设计的,遇到过hacking,如何解决
11. 如果把这个 reward 设计迁移到对话任务,你会怎么做?
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
一共几几面呀
相关推荐
查看7道真题和解析