大模型常考面试题 100 道(第 76~100 道)

这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

76. 训练和推理为什么要区分开看?

答:因为两者关注的目标完全不一样。训练更关注怎么把模型能力学出来,重点在数据、loss、优化器、并行训练和收敛稳定性;推理更关注怎么把模型高效跑起来,重点在延迟、吞吐、显存、并发和成本。很多技术在训练阶段成立,不代表在线推理就划算。所以做大模型不能只会训练或者只会部署,至少要知道这两套问题是分开的。

77. 预填充阶段和解码阶段有什么区别?

答:预填充阶段就是把用户输入的整段 prompt 一次性喂进去,算出首轮 hidden states 和 KV Cache;解码阶段则是模型一个 token 一个 token 往后生成。预填充更像并行处理,计算吞吐高;解码是自回归的,天然串行,通常是延迟瓶颈。所以在推理优化里,大家经常会把 prefilling 和 decoding 分开优化。很多时候用户觉得“模型慢”,其实主要慢在解码阶段。

78. 在线推理里吞吐和时延怎么权衡?

答:吞吐看的是单位时间能处理多少请求,时延看的是单个请求多久返回。如果你把 batch 拉很大,吞吐通常会上去,但单个用户等待时间可能变长;如果 batch 很小,单请求体验会更好,但整体资源利用率不一定高。所以线上一般要根据业务场景折中。比如对话产品更在意首 token 延迟,离线生成任务更在意整体吞吐。

79. 首 token 延迟为什么重要?

答:因为用户对“有没有开始响应”特别敏感。哪怕完整回答总共要几秒,只要首 token 很快出来,用户通常会觉得系统更流畅;反过来,如果前面卡很久,哪怕后面生成很快,体验也会差很多。所以聊天类产品里,首 token 延迟往往比总生成时间更影响体感。很多推理优化最终都是围绕“更快把第一个字吐出来”展开的。

80. 什么是 Continuous Batching?

答:Continuous Batching 可以理解成动态批处理。传统 batch 是一批请求一起进一起出,但在线服务里每个请求长度不同、生成速度不同,如果强行同步,资源利用率会很差。Continuous Batching 允许不同请求在不同时间进入和退出 batch,让 GPU 尽量一直保持忙碌。这是很多大模型推理框架提升吞吐的关键手段。

81. 为什么说大模型服务本质上也是一个系统工程问题?

答:因为真正上线后,问题远不止模型本身。你要考虑请求调度、并发控制、缓存、限流、降级、日志、监控、告警、权限、安全、成本和多机部署。很多线上事故不是模型答错了,而是超时、队列堆积、某个外部工具挂了,或者流量突增把服务打满了。所以会训模型只是第一步,能稳定提供服务是另一套能力。

82. RAG 召回效果不好,你会先排查什么?

答:我一般先看三层。第一层看数据层面,文档清洗是否有问题,chunk 是否切得太碎或者太大,元信息有没有丢。第二层看召回层面,embedding model 是否合适,索引是否更新,召回参数是否过于保守。第三层看排序层面,有没有 rerank,query 是否需要改写。RAG 效果差,很多时候不是模型不会答,而是前面根本没把正确材料拿到。所以排查顺序通常是先看检索链路,再看生成链路。

83. 混合检索为什么常常比单纯向量检索更稳?

答:因为语义检索擅长找“意思接近”的内容,但对一些关键词、术语、数字、版本号、专有名词不一定敏感;关键词检索正好在这些地方有优势。混合检索把向量召回和 BM25 这类词法召回结合起来,通常能兼顾语义匹配和字面匹配。实际业务里,很多查询并不是纯语义问题,而是“关键词 + 语义”混合,所以混合检索往往更稳。尤其企业知识库和文档问答场景,很常见。

84. Rerank 为什么经常能显著提升 RAG 效果?

答:因为粗召回阶段的目标是“别漏”,不是“最精确”。它会先尽量把可能相关的内容都找出来,但顺序不一定准。Rerank 的作用就是对这批候选结果做更细的相关性判断,把最该给模型看的内容排到前面。上下文窗口是有限的,谁排在前面很重要。所以很多时候不是“没召回到”,而是“召回到了但没排上来”。

85. 如果检索到了很多内容,怎么控制上下文拼接?

答:不能简单把所有 chunk 全拼进去,那样会把窗口塞满,还会引入很多噪声。通常会按相关性分数选 top-k,再结合去重、相邻块合并、按

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

聚焦核心业务场景,利用Agent等前沿技术推动AI落地。你将参与从需求洞察到系统构建的全流程,通过研发智能应用与工具,提升业务效率与效果,实现技术驱动业务增长的完整闭环,推动智能规模化演进,实现技术价值转化。具体职责包括以下相关方向的一项或多项:1.需求理解与归因:● 深入业务场景,利用数据挖掘与特征分析完成现象归因;精准识别高价值问题,将模糊的业务痛点转化为明确的 AI 解决目标。2.架构设计:● 面向具体业务需求,设计 AI 原生系统架构;参与 Agent 系统核心模块的规划,包括记忆管理、推理策略与工具编排,兼顾架构的灵活性、可扩展性与工程可落地性。3.知识与环境构建:● 搭建AI与现有业务系统的交互环境,涵盖 API 接入、RAG 知识库构建、记忆方案设计;持续优化召回质量与上下文注入策略,为模型提供准确、及时的执行环境与知识支撑。4.核心能力实现:● 负责Agent关键模块的工程落地,实现意图识别、任务拆解与反思纠错闭环;封装标准化SDK/API服务,构建Agent观测体系,实现全链路追踪与多维归因分析。5.系统迭代与演进:● 建立搭建自动化评测与回测机制,通过调优与Case分析不断收敛效果与性能提升的最优路径;沉淀方法论与可复用组件,推动 AI 能力从单点验证走向规模化落地。6.性能优化:● 优化高并发场景下的系统性能,通过异步处理与降级策略保障稳定性,通过低侵入性观测手段保障系统的长期稳定运行。1.基础条件● 计算机、软件工程、人工智能等相关专业优先。2.专业能力● AI编程工具重度玩家:Cursor、Claude code等AI编程工具重度或顶级玩家,具备极强的Prompt编写与调优能力,有过完整的项目级开发经验,理解如何让AI写出生产级代码。● 大模型能力理解与掌握:理解主流LLM的能力与局限,能够清晰拆解任务并通过LLM或确定性逻辑兜底实现;熟悉主流大模型的应用范式(Context Engineering、Prompt Engineering、Agent、工具/函数调用等等)及主流Agent框架(如LangChain等),具备大模型幻觉、Prompt注入等风险的工程化应对思路。● 扎实的代码和工程能力:具备扎实的计算机基础知识,深入理解数据结构、算法、网络和操作系统等相关知识,能至少在一种主流编程语言(如 Java / Python / JS 等)上有深度的实践经验,掌握常见工程实践并具备优秀的Coding 能力,能够根据场景灵活选型并快速上手。3.能力特质● 学习能力: 具备快速啃透前沿论文(Paper)的能力,并能将理论知识转化为工程代码。● 开放性与动手能力: 拒绝纸上谈兵,有自己独立完成的小项目(开源项目或个人 Demo),展现极客精神。● 好奇心与想象力: 面对未知事物有独特的想法,具备敏锐的问题定义能力和坚韧的解决问题能力。● 审美追求: 技术亦有审美,鼓励你提出能提出打动人心、简洁优雅的好想法。● 高能动性: 具备强烈的自驱力,能够主动探索边界,而不是等待被分配任务。加分项● 有AI应用或Agent实际落地经验:包括不限于RAG系统、多智能体编排、结合MCP、Skill等的Agent项目,有可展示的项目/实习成果者优先。● 开源贡献或技术影响力:在Github上有高质量AI项目、技术博客或社区影响力。● 对AI Infra有基本理解:了解vLLM、Ollama等推理框架原理,理解延迟优化、KV cache优化、流式输出等工程全局视角。● 在 CV(计算机视觉)或 NLP(自然语言处理)方向有扎实的理论基础,有实际业务场景模型训练(SFT、RL)等经验的优先。
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务