阿里大模型算法二面-实习面经
1. 目前多模态大语言模型是如何融合文本与图像信息的?
2. 大语言模型的RLHF训练流程是什么?它存在哪些潜在风险?
3. 什么是Embedding?词嵌入和句嵌入有何不同?
4. 大语言模型中的Tokenization是如何工作的?不同模型的分词算法有何差异?
5. 对比大语言模型的增量推理和传统推理方式,增量推理的优势和实现难点是什么?
6. 介绍一下大语言模型中的知识蒸馏,它如何用于压缩模型体积?
7. 过往项目(细节追问)
8. 大语言模型的长文本处理能力有限,目前有哪些技术可以缓解这一问题?
9. 什么是大语言模型的“上下文窗口”?扩展上下文窗口对模型性能有何影响?
2. 大语言模型的RLHF训练流程是什么?它存在哪些潜在风险?
3. 什么是Embedding?词嵌入和句嵌入有何不同?
4. 大语言模型中的Tokenization是如何工作的?不同模型的分词算法有何差异?
5. 对比大语言模型的增量推理和传统推理方式,增量推理的优势和实现难点是什么?
6. 介绍一下大语言模型中的知识蒸馏,它如何用于压缩模型体积?
7. 过往项目(细节追问)
8. 大语言模型的长文本处理能力有限,目前有哪些技术可以缓解这一问题?
9. 什么是大语言模型的“上下文窗口”?扩展上下文窗口对模型性能有何影响?
全部评论
相关推荐
八股战士0offer:虽然但是,你想表达的应该是学习如何agent工程里的提示词工程,而不是训练或者微调模型,这基本上是两个不同的方向。我认为学习agent主要就两个东西:提示词工程和上下文工程。像你说的prompt caching这种优化怎么能想到,建议多读大模型供应商尤其是anthropic的博客,anthropic大概一年前就有很详细的博客讲最佳实践和实现了 点赞 评论 收藏
分享
查看7道真题和解析