大模型常考面试题 100 道(第 51~75 道)

这份题库不是随便凑出来的 100 道题,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

51. MoE 里的路由机制是怎么工作的?

答:MoE 里不是所有 expert 都参与计算,而是先通过一个 router 或 gate 网络,对当前 token 打分,再选出 top-k 个 expert 去处理。也就是说,总参数虽然很多,但每个 token 实际只激活少量专家,所以计算量不会和总参数量线性增长。路由机制的核心问题有两个,一个是“选得准不准”,另一个是“负载均不均衡”。如果很多 token 都挤到少数几个 expert,那训练和推理都会出问题。所以 MoE 里通常还会配合负载均衡损失来避免 expert 使用不均。

52. 大模型参数增长为什么会带来能力提升?

答:参数更多,本质上意味着模型容量更大,可以表示更复杂的函数,也能存储更丰富的统计规律。随着参数、数据和训练算力一起增长,模型通常会在语言理解、生成、推理、泛化这些方面出现持续提升,这就是常说的 scaling law 现象。不过参数增长不是无限有效的,如果数据质量不够、训练方法不对、架构不合适,单纯堆参数收益也会下降。所以大模型能力增强,通常是参数、数据、训练策略共同作用的结果。

53. 你怎么理解 Scaling Law?

答:Scaling Law 说的是,当模型参数量、训练数据量、计算量按一定规律增加时,模型损失会呈现可预测的下降趋势。简单理解就是,模型不是随便做大才变强,而是存在一种比较稳定的规模收益规律。这也是为什么近几年大模型发展这么快,因为业界逐渐验证了“更大模型 + 更多高质量数据 + 更多算力”确实能稳定带来能力提升。但这不是说只要无脑变大就行,后面还会遇到训练成本、数据瓶颈和推理成本的问题。

54. 大模型训练一般分哪几个阶段?

答:一般会分成 预训练、监督微调、对齐训练、部署优化 这几步。预训练是让模型学语言规律和通用知识;监督微调是让模型更会按指令做任务;对齐训练是让输出更符合人类偏好和安全要求;部署优化则是为了让模型能真正上线,比如量化、蒸馏、推理加速这些。有的团队会把 SFT 和对齐做得很重,有的则更强调预训练底座。但大方向上,这几个阶段基本是通用的。

55. 预训练数据为什么这么重要?

答:因为预训练决定了模型的知识边界、语言能力和底层分布。如果数据质量差、重复多、噪声大、领域偏差严重,模型学到的能力就会受限,后续再怎么微调也很难完全补回来。而且大模型很多“看起来像推理”的能力,实际上也建立在大规模高质量语料的统计学习之上。所以预训练数据通常比很多人想象中更重要,甚至经常比模型结构本身还更影响上限。

56. 数据清洗在大模型训练里主要做什么?

答:数据清洗主要是去重、去噪、去低质量、过滤非法内容和统一格式。因为原始互联网数据里有很多乱码、广告、模板页、重复网页、错乱标点、低信息密度文本,如果这些数据大量混进来,会显著影响训练效率和模型质量。清洗不是单纯“删垃圾”,还包括保留高价值文本、控制领域分布和语言分布。很多大模型训练效果差,问题未必在模型,而是在数据没清好。

57. 训练大模型时为什么要去重?

答:去重主要有两个原因。第一,重复数据太多会浪费训练算力,模型反复看同样内容,收益很低。第二,重复样本过多会让模型过拟合某些分布,甚至影响泛化。尤其网页语料里模板页、转载页、镜像页非常多,如果不去重,数据表面上很大,实际有效信息并没有那么多。所以高质量预训练数据一定会做一定程度的去重处理。

58. Token 是什么?Tokenizer 在大模型里起什么作用?

答:大模型不能直接处理字符串,它处理的是离散 token 序列。Tokenizer 的作用就是把原始文本切成 token,再映射成词表里的 id;生成时再把 id 反解成文本。token 不一定等于一个词,也不一定等于一个字,它可以是词、子词、字节片段等。Tokenizer 会直接影响序列长度、训练效率和跨语言表现,所以它不是一个无关紧要的小模块。

59. BPE、WordPiece、SentencePiece 有什么区别?

答:它们本质上都是子词切分方法,但实现思路略有不同。BPE 是不断合并高频字符对,WordPiece 更强调合并后对语言模型概率的提升,SentencePiece 则更灵活,它可以直接在原始文本上训练,不强依赖空格分词。现在很多大模型喜欢用 SentencePiece 或类似方案,因为它对多语言和不同文本格式更友好。面试里一般回答到“都是子词级别 tokenization 方法,差别主要在训练和切分策略”就够了。

60. 上下文窗口是什么?为什么它重要?

答:上下文窗口就是模型一次能看到的 token 长度上限。窗口越大,

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务