大模型面经每日总结(奇安信2025/6/5)

  1. 简述 Transformer 多头注意力机制理解词间关系的原理。​
  2. 训练 Transformer 时,如何解决梯度消失或梯度爆炸问题?​
  3. GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果?​
  4. 如何优化 Transformer 模型预测速度?​
  5. 说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。​
  6. 用 RAG 构建问答系统时,如何处理检索内容不相关或不全的问题?​
  7. 如何确定 RAG 系统中文档的合适切分粒度?​
  8. 当 RAG 系统知识库数据量大、检索慢时,有哪些提速方法?​
  9. 如何协同使用 Transformer 与 RAG 以发挥最佳效果?​
  10. 用 RAG 优化模型回答,有哪些实用评估指标?​
  11. 如何清洗 Transformer 模型训练数据中的噪声?​
  12. 在 RAG 架构中,怎样确保检索信息与大模型生成内容逻辑连贯?
#奇安信##面经##大模型#
全部评论

相关推荐

✅第一轮1、首先用ppt做了自我介绍然后就开始讲解在第一段实习期间做的工作内容,讲的非常非常详细,包括目前多模态对抗攻击的现状是怎么样的(你论文处在什么样的位置),还讲解了我论文的主要创新点是什么,优势是什么2、同时,还引入到了另外一篇在投的论文,说明了其对于chatgpt攻击的可行性,因此引出了他对攻击整个方法的思考与了解,想要了解对抗攻击都有哪几种分类,哪几种扰动策略,他们分别的难点是什么等等3、然后我又将其引入了soft prompt中,讲解其在recall presicion的trade off以及内容合规(让模型生成该问题不可回答)等等上面的可行性4、之后介绍了另一段实习这边在语言大模型和多模态大模型上面的工作内容,介绍多模态大模型的工程经验等等。5、最后做了一个重排列表的题。6、然后反问环节,问了他们组的工作内容,他们组目前有两个北斗,两个L8,其中一个入职是L7,然后一年升为L8,公司蛮看重,给你申请资源做。7、又问了我目前的职业发展规划是怎么样的✅第二轮1、首先用ppt做自我介绍,直接转到了实习部分2、先介绍了第一段实习,问我论文的主要创新点是什么3、然后介绍了第二段实习,先仔细介绍了第二段实习经历,包括业务情况、5b大模型的各种训练情况、多目标训练情况,并详细的介绍了我的soft prompt4、之后就是多模态大模型的各种细节5、最后让我找一篇论文进行讲解,主要创新点什么的6、最后做了个题:二叉树根节点到叶子结点的所有路径和✅HR面问了很多,超级详细📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
投递美团等公司6个岗位
点赞 评论 收藏
分享
1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务