大模型面经每日总结 (京东大模型实习)

#大模型# #面经##京东#
1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。
答案要点:
算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。
举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。
2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?
答案要点:
• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。
• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。
3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?
4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?

5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?
答案要点:
• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);
• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。
配合逻辑:
PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。

6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。

实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
全部评论

相关推荐

1.自我介绍,拷打项目为什么用多智能体不用单智能体了解哪些大模型应用框架(你项目中的竞品)rag知识库是怎么搭建的,怎么进行的分片操作如何让大模型更加理解医学名词(一般大模型理解不了医学名词)知识库的大小,我答了一个很大的数,问接口速度问题(一脸懵逼,没考虑过,只考虑过rag层面的优化)询问rag评估(孩子寄了我没做,但是我背过),问具体评估数值(🐔没做过,瞎逼逼了一个数字)优化空间从项目拷打中看的出来面试官水平确实比较高,而且是个声音很好听的小哥哥2.写算法,尽然是acm格式,幸好函数写出来了,可惜的是输入输出没写出来,链表的输入输出真的难3.反问环节:做什么业务,不足之处
梗小姐:佬,你投的不会是这个吧。 wxg-微信支付-模型组 主要工作方向: 1.利用支付数据、社交数据等制定安全策略进行数据挖掘、特征工程 2.前沿模型研究:利用LLM代替xgboost等传统风控模型 本次实习生,可能的工作:使用司内大模型平台进行agent构建,集成到企业微信机器人里,作为内部工具以消息告警等形式提醒产品同学,其实还是偏开发。 掌握python和java应该够用了。 需要掌握的基本知识 简单的开发技能 agent基本原理(重点:function call,可能会被问了解mcp吗) LLM基本知识(训练、微调和部署推理,偏工程化),最好再掌握一些RAG知识
查看14道真题和解析
点赞 评论 收藏
分享
评论
2
10
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务