大模型常考面试题 100 道(第 51~75 道)

这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

51. MoE 里的路由机制是怎么工作的?

答:MoE 里不是所有 expert 都参与计算,而是先通过一个 router 或 gate 网络,对当前 token 打分,再选出 top-k 个 expert 去处理。也就是说,总参数虽然很多,但每个 token 实际只激活少量专家,所以计算量不会和总参数量线性增长。路由机制的核心问题有两个,一个是“选得准不准”,另一个是“负载均不均衡”。如果很多 token 都挤到少数几个 expert,那训练和推理都会出问题。所以 MoE 里通常还会配合负载均衡损失来避免 expert 使用不均。

52. 大模型参数增长为什么会带来能力提升?

答:参数更多,本质上意味着模型容量更大,可以表示更复杂的函数,也能存储更丰富的统计规律。随着参数、数据和训练算力一起增长,模型通常会在语言理解、生成、推理、泛化这些方面出现持续提升,这就是常说的 scaling law 现象。不过参数增长不是无限有效的,如果数据质量不够、训练方法不对、架构不合适,单纯堆参数收益也会下降。所以大模型能力增强,通常是参数、数据、训练策略共同作用的结果。

53. 你怎么理解 Scaling Law?

答:Scaling Law 说的是,当模型参数量、训练数据量、计算量按一定规律增加时,模型损失会呈现可预测的下降趋势。简单理解就是,模型不是随便做大才变强,而是存在一种比较稳定的规模收益规律。这也是为什么近几年大模型发展这么快,因为业界逐渐验证了“更大模型 + 更多高质量数据 + 更多算力”确实能稳定带来能力提升。但这不是说只要无脑变大就行,后面还会遇到训练成本、数据瓶颈和推理成本的问题。

54. 大模型训练一般分哪几个阶段?

答:一般会分成 预训练、监督微调、对齐训练、部署优化 这几步。预训练是让模型学语言规律和通用知识;监督微调是让模型更会按指令做任务;对齐训练是让输出更符合人类偏好和安全要求;部署优化则是为了让模型能真正上线,比如量化、蒸馏、推理加速这些。有的团队会把 SFT 和对齐做得很重,有的则更强调预训练底座。但大方向上,这几个阶段基本是通用的。

55. 预训练数据为什么这么重要?

答:因为预训练决定了模型的知识边界、语言能力和底层分布。如果数据质量差、重复多、噪声大、领域偏差严重,模型学到的能力就会受限,后续再怎么微调也很难完全补回来。而且大模型很多“看起来像推理”的能力,实际上也建立在大规模高质量语料的统计学习之上。所以预训练数据通常比很多人想象中更重要,甚至经常比模型结构本身还更影响上限。

56. 数据清洗在大模型训练里主要做什么?

答:数据清洗主要是去重、去噪、去低质量、过滤非法内容和统一格式。因为原始互联网数据里有很多乱码、广告、模板页、重复网页、错乱标点、低信息密度文本,如果这些数据大量混进来,会显著影响训练效率和模型质量。清洗不是单纯“删垃圾”,还包括保留高价值文本、控制领域分布和语言分布。很多大模型训练效果差,问题未必在模型,而是在数据没清好。

57. 训练大模型时为什么要去重?

答:去重主要有两个原因。第一,重复数据太多会浪费训练算力,模型反复看同样内容,收益很低。第二,重复样本过多会让模型过拟合某些分布,甚至影响泛化。尤其网页语料里模板页、转载页、镜像页非常多,如果不去重,数据表面上很大,实际有效信息并没有那么多。所以高质量预训练数据一定会做一定程度的去重处理。

58. Token 是什么?Tokenizer 在大模型里起什么作用?

答:大模型不能直接处理字符串,它处理的是离散 token 序列。Tokenizer 的作用就是把原始文本切成 token,再映射成词表里的 id;生成时再把 id 反解成文本。token 不一定等于一个词,也不一定等于一个字,它可以是词、子词、字节片段等。Tokenizer 会直接影响序列长度、训练效率和跨语言表现,所以它不是一个无关紧要的小模块。

59. BPE、WordPiece、SentencePiece 有什么区别?

答:它们本质上都是子词切分方法,但实现思路略有不同。BPE 是不断合并高频字符对,WordPiece 更强调合并后对语言模型概率的提升,SentencePiece 则更灵活,它可以直接在原始文本上训练,不强依赖空格分词。现在很多大模型喜欢用 SentencePiece 或类似方案,因为它对多语言和不同文本格式更友好。面试里一般回答到“都是子词级别 tokenization 方法,差别主要在训练和切分策略”就够了。

60. 上下文窗口是什么?为什么它重要?

答:上下文窗口就是模型一次能看到的 token 长度上限。窗口越大,

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

03-16 09:03
已编辑
我们是谁?🌍 天猫国际技术团队中国跨境进口NO.1平台的技术引擎● 覆盖「人货关仓税汇服」全链路的进口业务系统● 服务数亿消费者 × 千万商家 × 百亿商品的超级系统● 平台/直营/探物/免税...最全进口业态一网打尽加入我们的独特价值💎 这里有别处给不了的成长加速度🎯 真实复杂的高价值场景● 从消费者导购到跨境清关,深度参与每个关键环节● 不是CRUD工程师,而是端到端解决商业问题的系统构建者● 从问题定义→收敛方案→规模复制的完整闭环实践🚀  AI落地的最佳练兵场● AI商品运营:百万级自营商品的全链路智能化运营● AI供应链:智能备货、库存调度、履约检测全覆盖● 不是调参侠,而是让AI在极端流量下稳定创造商业价值我们在找谁岗位一:AI 应用研发工程师你将做什么?聚焦核心业务场景,利用 Agent 等前沿技术推动 AI 落地,参与从需求洞察到系统构建的全流程:1. 需求理解与归因:深入业务场景,利用数据挖掘完成现象归因,将模糊痛点转化为明确的 AI 解决目标2. 架构设计:面向业务需求设计 AI 原生系统架构,规划 Agent 核心模块(记忆管理、推理策略、工具编排)3. 知识与环境构建:搭建 AI 与业务系统的交互环境(API 接入、RAG 知识库、记忆方案),优化召回质量与上下文注入4. 核心能力实现:落地 Agent 关键模块(意图识别、任务拆解、反思纠错),封装标准化 SDK/API,构建全链路追踪与归因分析5. 系统迭代与演进:建立自动化评测与回测机制,沉淀可复用组件,推动 AI 从单点验证走向规模化落地6. 性能优化:优化高并发场景下的系统性能,通过异步处理与降级策略保障稳定性我们期待你:● 2027 届应届毕业生,计算机/人工智能/软件工程等相关专业本科及以上● Cursor、Claude Code 等 AI 编程工具重度玩家,具备极强的 Prompt 编写与调优能力,有完整项目级开发经验● 理解主流 LLM 的能力与局限,熟悉 Context/Prompt Engineering、Agent、工具调用等应用范式及 LangChain 等主流框架● 精通 Java/Python/JS 中至少一门语言,深入理解数据结构、算法、网络和操作系统,具备优秀的 Coding 能力● 有 AI 应用或 Agent 实际落地经验(RAG 系统、多智能体编排、MCP/Skill 项目)者优先● Github 上有高质量 AI 项目、技术博客或社区影响力者优先● 对 AI Infra 有基本理解(vLLM、Ollama 等推理框架,延迟优化、KV cache 等)者优先● 在 CV 或 NLP 方向有扎实理论基础,有模型训练(SFT、RL)等实战经验者优先岗位二:AI Agent 优化工程师(训练、数据、评测方向)你将做什么?围绕真实电商核心场景,参与 AI 应用的系统化构建与优化,把 AI 变为业务增长引擎:1. AI 应用全生命周期演进:深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估、模型后训练优化2. 数据飞轮构建:打造高质量数据生产链路,探索合成数据(Synthetic Data)与高效蒸馏技术,跑通"业务-模型-反馈"迭代闭环3. 评测体系构建:面向业务目标设计完备的效果评估体系,构建自动化评估框架(LLM-as-a-Judge),建立离线评估与在线业务指标联动4. 强化学习与奖励机制设计:构建可工程化的 Reward 体系与 RL 训练环境,提升模型在垂直场景中的可控性与泛化能力5. AI 外部能力体系搭建:实现知识库(RAG)、长短期记忆系统(Memory)、工具调用、多 Agent 协作框架等6. 多模态 AI 应用开发:构建多模态感知与推理能力,解决 UI 自动化、视觉理解与审核、多模态会话等场景落地问题我们期待你:● 2027 届应届毕业生,计算机/数学/统计学等相关专业硕士/博士优先,优秀本科生不受限制● 深入理解 Transformer 和主流 LLM 架构演进,对后训练算法有实操经验和深刻认知● 掌握主流 AI 协议(MCP、Skills)、记忆系统(Memory)、知识库(RAG)● 较强 Python 编程能力,熟练掌握 PyTorch,了解大模型训练与推理框架(Megatron-LM、vLLM、DeepSpeed)● 有很强的 Data-centric AI 意识,精通后训练所需高质量数据挖掘与构造● 拒绝盲目调参,能针对 Agent 任务设计科学评测体系,基于评测结果精准分析和定位问题● 有 Agentic RL 训练实操经验者优先● 独立开发过具备影响力的 AI 应用者优先● 具备合成数据(Synthetic Data)与动作轨迹(Trajectory)构建实操经验者优先● 具备复杂多步任务量化评估能力者优先● 在 AI 顶会(ACL/EMNLP/ICLR/NeurIPS/ICML)发表大模型评测、数据合成、Agent、RL 相关一作或共一论文者优先● 知名大模型评测框架或高质量开源数据核心贡献者优先● 极强的数学功底和逻辑分析能力,对高质量数据和评测有端到端闭环经验者优先简历直达邮箱:【**********】
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务