大模型常考面试题 100 道（第 76～100 道）

这份题库不是随便凑出来的 100 道题，而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题，又结合公开平台上反复出现的问题，把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢，最后形成这套 大模型常考面试题100道

76. 训练和推理为什么要区分开看？

答：因为两者关注的目标完全不一样。训练更关注怎么把模型能力学出来，重点在数据、loss、优化器、并行训练和收敛稳定性；推理更关注怎么把模型高效跑起来，重点在延迟、吞吐、显存、并发和成本。很多技术在训练阶段成立，不代表在线推理就划算。所以做大模型不能只会训练或者只会部署，至少要知道这两套问题是分开的。

77. 预填充阶段和解码阶段有什么区别？

答：预填充阶段就是把用户输入的整段 prompt 一次性喂进去，算出首轮 hidden states 和 KV Cache；解码阶段则是模型一个 token 一个 token 往后生成。预填充更像并行处理，计算吞吐高；解码是自回归的，天然串行，通常是延迟瓶颈。所以在推理优化里，大家经常会把 prefilling 和 decoding 分开优化。很多时候用户觉得“模型慢”，其实主要慢在解码阶段。

78. 在线推理里吞吐和时延怎么权衡？

答：吞吐看的是单位时间能处理多少请求，时延看的是单个请求多久返回。如果你把 batch 拉很大，吞吐通常会上去，但单个用户等待时间可能变长；如果 batch 很小，单请求体验会更好，但整体资源利用率不一定高。所以线上一般要根据业务场景折中。比如对话产品更在意首 token 延迟，离线生成任务更在意整体吞吐。

79. 首 token 延迟为什么重要？

答：因为用户对“有没有开始响应”特别敏感。哪怕完整回答总共要几秒，只要首 token 很快出来，用户通常会觉得系统更流畅；反过来，如果前面卡很久，哪怕后面生成很快，体验也会差很多。所以聊天类产品里，首 token 延迟往往比总生成时间更影响体感。很多推理优化最终都是围绕“更快把第一个字吐出来”展开的。

80. 什么是 Continuous Batching？

答：Continuous Batching 可以理解成动态批处理。传统 batch 是一批请求一起进一起出，但在线服务里每个请求长度不同、生成速度不同，如果强行同步，资源利用率会很差。Continuous Batching 允许不同请求在不同时间进入和退出 batch，让 GPU 尽量一直保持忙碌。这是很多大模型推理框架提升吞吐的关键手段。

81. 为什么说大模型服务本质上也是一个系统工程问题？

答：因为真正上线后，问题远不止模型本身。你要考虑请求调度、并发控制、缓存、限流、降级、日志、监控、告警、权限、安全、成本和多机部署。很多线上事故不是模型答错了，而是超时、队列堆积、某个外部工具挂了，或者流量突增把服务打满了。所以会训模型只是第一步，能稳定提供服务是另一套能力。

82. RAG 召回效果不好，你会先排查什么？

答：我一般先看三层。第一层看数据层面，文档清洗是否有问题，chunk 是否切得太碎或者太大，元信息有没有丢。第二层看召回层面，embedding model 是否合适，索引是否更新，召回参数是否过于保守。第三层看排序层面，有没有 rerank，query 是否需要改写。RAG 效果差，很多时候不是模型不会答，而是前面根本没把正确材料拿到。所以排查顺序通常是先看检索链路，再看生成链路。

83. 混合检索为什么常常比单纯向量检索更稳？

答：因为语义检索擅长找“意思接近”的内容，但对一些关键词、术语、数字、版本号、专有名词不一定敏感；关键词检索正好在这些地方有优势。混合检索把向量召回和 BM25 这类词法召回结合起来，通常能兼顾语义匹配和字面匹配。实际业务里，很多查询并不是纯语义问题，而是“关键词 + 语义”混合，所以混合检索往往更稳。尤其企业知识库和文档问答场景，很常见。