大模型常考面试题 100 道(第 76~100 道)
这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道
76. 训练和推理为什么要区分开看?
答:因为两者关注的目标完全不一样。训练更关注怎么把模型能力学出来,重点在数据、loss、优化器、并行训练和收敛稳定性;推理更关注怎么把模型高效跑起来,重点在延迟、吞吐、显存、并发和成本。很多技术在训练阶段成立,不代表在线推理就划算。所以做大模型不能只会训练或者只会部署,至少要知道这两套问题是分开的。
77. 预填充阶段和解码阶段有什么区别?
答:预填充阶段就是把用户输入的整段 prompt 一次性喂进去,算出首轮 hidden states 和 KV Cache;解码阶段则是模型一个 token 一个 token 往后生成。预填充更像并行处理,计算吞吐高;解码是自回归的,天然串行,通常是延迟瓶颈。所以在推理优化里,大家经常会把 prefilling 和 decoding 分开优化。很多时候用户觉得“模型慢”,其实主要慢在解码阶段。
78. 在线推理里吞吐和时延怎么权衡?
答:吞吐看的是单位时间能处理多少请求,时延看的是单个请求多久返回。如果你把 batch 拉很大,吞吐通常会上去,但单个用户等待时间可能变长;如果 batch 很小,单请求体验会更好,但整体资源利用率不一定高。所以线上一般要根据业务场景折中。比如对话产品更在意首 token 延迟,离线生成任务更在意整体吞吐。
79. 首 token 延迟为什么重要?
答:因为用户对“有没有开始响应”特别敏感。哪怕完整回答总共要几秒,只要首 token 很快出来,用户通常会觉得系统更流畅;反过来,如果前面卡很久,哪怕后面生成很快,体验也会差很多。所以聊天类产品里,首 token 延迟往往比总生成时间更影响体感。很多推理优化最终都是围绕“更快把第一个字吐出来”展开的。
80. 什么是 Continuous Batching?
答:Continuous Batching 可以理解成动态批处理。传统 batch 是一批请求一起进一起出,但在线服务里每个请求长度不同、生成速度不同,如果强行同步,资源利用率会很差。Continuous Batching 允许不同请求在不同时间进入和退出 batch,让 GPU 尽量一直保持忙碌。这是很多大模型推理框架提升吞吐的关键手段。
81. 为什么说大模型服务本质上也是一个系统工程问题?
答:因为真正上线后,问题远不止模型本身。你要考虑请求调度、并发控制、缓存、限流、降级、日志、监控、告警、权限、安全、成本和多机部署。很多线上事故不是模型答错了,而是超时、队列堆积、某个外部工具挂了,或者流量突增把服务打满了。所以会训模型只是第一步,能稳定提供服务是另一套能力。
82. RAG 召回效果不好,你会先排查什么?
答:我一般先看三层。第一层看数据层面,文档清洗是否有问题,chunk 是否切得太碎或者太大,元信息有没有丢。第二层看召回层面,embedding model 是否合适,索引是否更新,召回参数是否过于保守。第三层看排序层面,有没有 rerank,query 是否需要改写。RAG 效果差,很多时候不是模型不会答,而是前面根本没把正确材料拿到。所以排查顺序通常是先看检索链路,再看生成链路。
83. 混合检索为什么常常比单纯向量检索更稳?
答:因为语义检索擅长找“意思接近”的内容,但对一些关键词、术语、数字、版本号、专有名词不一定敏感;关键词检索正好在这些地方有优势。混合检索把向量召回和 BM25 这类词法召回结合起来,通常能兼顾语义匹配和字面匹配。实际业务里,很多查询并不是纯语义问题,而是“关键词 + 语义”混合,所以混合检索往往更稳。尤其企业知识库和文档问答场景,很常见。
84. Rerank 为什么经常能显著提升 RAG 效果?
答:因为粗召回阶段的目标是“别漏”,不是“最精确”。它会先尽量把可能相关的内容都找出来,但顺序不一定准。Rerank 的作用就是对这批候选结果做更细的相关性判断,把最该给模型看的内容排到前面。上下文窗口是有限的,谁排在前面很重要。所以很多时候不是“没召回到”,而是“召回到了但没排上来”。
85. 如果检索到了很多内容,怎么控制上下文拼接?
答:不能简单把所有 chunk 全拼进去,那样会把窗口塞满,还会引入很多噪声。通常会按相关性分数选 top-k,再结合去重、相邻块合并、按
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
