大模型面经每日总结（京东大模型实习）

#大模型# #面经##京东#
1. 基础概念题：什么是大模型核心加速技术中的 “算子融合”？举例说明其作用。
答案要点：
算子融合是将多个连续计算算子合并为一个，减少计算图中的节点数和显存读写次数，降低延迟。
举例：如将 Transformer 中的 Add（残差连接）与 RMSNorm（归一化）融合，减少两次内存访问，提升推理速度。
2. 技术原理题：Flash Attention V2 如何优化注意力计算效率？与 V1 的核心区别是什么？
答案要点：
• V1：通过分块计算注意力，减少显存占用（避免存储所有中间键值对）。
• V2：引入 “内外循环交换策略”，将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式，进一步提升计算效率，尤其在长序列场景下加速明显。
3. 量化技术中，FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异？
4. RAG 系统中，文档切分粒度如何影响检索和生成效果？实际中如何确定最优粒度？

5.在长序列推理场景中，PagedAttention 和 Prefix Caching 分别解决什么问题？如何配合使用？
答案要点：
• PagedAttention：将 KV Cache 分块存储在非连续显存中，避免显存碎片，支持处理超长序列（如百万 Token）；
• Prefix Caching：缓存历史对话的 KV 对，跨请求复用，减少重复计算（如多轮对话中复用上文缓存）。
配合逻辑：
PagedAttention 解决显存限制，Prefix Caching 减少计算量，两者结合可提升长对话场景的效率和稳定性。

6. 在企业级推理场景中，如何根据需求选择量化方案？举例说明短文本高并发和长文本场景的优化策略。

实时客服系统用 INT4 量化加速响应；金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。

全部评论

推荐最新楼层

07-17 23:43

门头沟学院数据分析师

大数据面试2小时前冲刺必备：大厂高频大数据面经【中】（大数据开发篇-多张原理图）

Hadoop 的核心组件有哪些？各自的作用是什么？（脉脉、微信、银联）Hadoop 是一个开源的分布式计算框架，旨在解决海量数据的存储与计算问题。其核心组件主要包括 HDFS（Hadoop Distributed File System）、YARN（Yet Another Resource Negotiator）、MapReduce 和 Hadoop Common。HDFS： 是 Hadoop 的分布式文件系统，主要用于大规模数据的可靠存储。NameNode： 管理元数据，如文件目录结构、文件与块的映射关系、块的副本信息等。DataNode： 实际存储数据块，周期性向 NameNode 汇报状...

大数据从入门到精通-最全...

点赞评论收藏

07-21 17:37

中山大学算法工程师

大模型算法岗面经，附答案！

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

点赞评论收藏

07-01 00:30

西北工业大学 Java

腾讯wxg大模型应用开发岗（又是秒挂呜呜）

1.自我介绍，拷打项目为什么用多智能体不用单智能体了解哪些大模型应用框架（你项目中的竞品）rag知识库是怎么搭建的，怎么进行的分片操作如何让大模型更加理解医学名词（一般大模型理解不了医学名词）知识库的大小，我答了一个很大的数，问接口速度问题（一脸懵逼，没考虑过，只考虑过rag层面的优化）询问rag评估（孩子寄了我没做，但是我背过），问具体评估数值（🐔没做过，瞎逼逼了一个数字）优化空间从项目拷打中看的出来面试官水平确实比较高，而且是个声音很好听的小哥哥2.写算法，尽然是acm格式，幸好函数写出来了，可惜的是输入输出没写出来，链表的输入输出真的难3.反问环节：做什么业务，不足之处

梗小姐：佬，你投的不会是这个吧。 wxg-微信支付-模型组主要工作方向： 1.利用支付数据、社交数据等制定安全策略进行数据挖掘、特征工程 2.前沿模型研究：利用LLM代替xgboost等传统风控模型本次实习生，可能的工作：使用司内大模型平台进行agent构建，集成到企业微信机器人里，作为内部工具以消息告警等形式提醒产品同学，其实还是偏开发。掌握python和java应该够用了。需要掌握的基本知识简单的开发技能 agent基本原理（重点：function call，可能会被问了解mcp吗） LLM基本知识（训练、微调和部署推理，偏工程化），最好再掌握一些RAG知识

查看14道真题和解析