大模型面经每日总结 (京东大模型实习)

#大模型# #面经##京东#
1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。
答案要点:
算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。
举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。
2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?
答案要点:
• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。
• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。
3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?
4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?

5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?
答案要点:
• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);
• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。
配合逻辑:
PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。

6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。

实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
全部评论

相关推荐

1.可以讲讲用户从发送请求url之后会发生什么吗 ✘介绍了一下SpringMVC的流程,从url到DispatcherServlet再到各个处理器部件等实际上面试官是想问从网络通信层面上它们发生了什么回复不太清楚,只介绍了一下域名通过DNS解析成IP然后请求到后端服务器2.了解cookie和session吗 ✘答的很不好,因为自己只学了JWT和token完全没想到会问这块,只答出前者存储在客户端后者存储在服务端3.了解MySQL中的事务隔离级别吗,它们分别解决哪些问题,具体讲 ✔4.学过哪些排序算法?✔冒泡,二分,快排5.MySQL中索引的数据结构?讲讲优势和为什么✔6.Redis常见架构✔7.了解正排索引和倒排索引吗✘答不太清楚只知道es库中通过倒排索引建表实现较高的搜索效率8.手撕,反转链表✔9.延迟队列是什么,了解底层实现吗✘回答了xdelayed延迟队列的基本应用场景和概念,底层实现不知道10.AMQP中消息可靠性原理✔11.你项目中的推荐功能是怎么实现的简单讲了一下调用了分词器和向量模型的API将库中视频基于标题分到我给出的聚类中反问面试官给出的评价是中间件和微服务用起来肯定没问题,但是基础有待提高,并且希望将来自己的学习要注重底层实现其实自己头两个问题没答上来已经心态挺爆炸了也觉得自己知识储备确实很少,有关Spring和Java的基本没问因为面试官提了一句他们都是使用go的,所以可能更注重通用中间件的底层实现和基本的网络通信,面试官人也很好头两个问题爆炸之后都说没什么关系。自己还是太弱了,急着找什么面试,乖乖滚去沉淀吧
月色及衿:反思了一下自己在学习的过程中确实也一直只想着怎么用和怎么用好,会用,底层实现差不多就完事了,实际上一被拷打就是路边一条,做个半吊子简历急着找实习撞见大厂马上就露原型,唉,好好练功吧
查看11道真题和解析
点赞 评论 收藏
分享
评论
2
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务