大模型常考面试题100道(第1~25道)

这份题不是随便凑出来的 100 道,而是从大量面经和题目里 筛出来的高频题。我整理了上百套校招、实习、校招的大模型相关面试题,又结合公开平台上反复出现的问题,把那些 出现次数最多、覆盖岗位最广、面试最容易问到 的内容统一收拢,最后形成这套 大模型常考面试题100道

1. Transformer 的整体结构是什么?

答:Transformer 最早是 Encoder-Decoder 结构。Encoder 每层主要是多头自注意力和前馈网络,Decoder 每层除了 masked self-attention 和前馈网络,还多了一个 cross-attention,用来关注 Encoder 的输出。不过现在大模型大多用的是 Decoder-only 结构,因为它更适合做自回归生成,训练目标统一,扩展到超大规模也更自然。每层通常都包含注意力模块、MLP 模块、残差连接和归一化层。

2. BERT 和 GPT 的核心区别是什么?

答:BERT 是 Encoder-only,训练目标主要是 MLM,所以它是双向建模,更适合理解类任务,比如分类、匹配、抽取。GPT 是 Decoder-only,训练目标是 next token prediction,也就是根据前文预测下一个 token,所以它天然适合生成类任务。简单说,BERT 更偏“看懂”,GPT 更偏“续写”。

3. Self-Attention 的原理和公式是什么?

答:Self-Attention 的核心是让序列里的每个 token 都能和其他 token 建立关系。输入 (X) 经过线性变换得到:Q=XWQ,K=XWK,V=XWV 注意力计算公式是:其中 QKt表示 query 和 key 的相似度,softmax 后得到权重,再对 V加权求和。本质上就是“我当前这个 token,应该重点看哪些 token”。

4. 为什么 Attention 里要除以

答:因为如果 dk 很大,Q和K 点积后的值会变得很大,softmax 容易进入饱和区,导致梯度很小,训练不稳定。除以 相当于把分数做一个缩放,让数值范围更平稳,训练更容易收敛。这是一个很典型的数值稳定性处理。

5. Multi-Head Attention 为什么有效?

答:单头注意力只能在一个子空间里建模关系,多头注意力相当于把表示空间拆成多个子空间,每个头可以学不同类型的信息,比如局部依赖、长程依赖、语法关系、语义关系。最后把多个头的结果拼接起来,再做一次线性映射。这样模型表达能力会更强,不同头能关注不同角度的信息。

6. 位置编码是干什么的?为什么 Transformer 需要它?

答:因为 Attention 本身不包含顺序概念,如果不给位置信息,模型只知道这是一堆 token,不知道谁在前谁在后。位置编码就是把“顺序”告诉模型。最早 Transformer 用的是正弦余弦位置编码,后面很多模型用可学习位置编码,再往后大模型里很常见的是 RoPE,因为它在长文本建模上通常更好。

7. RoPE 是什么?它和传统位置编码有什么区别?

答:RoPE 是 Rotary Position Embedding,也就是旋转位置编码。传统位置编码一般是直接把位置向量加到 token embedding 上,RoPE 则是把位置信息作用在 (Q) 和 (K) 上,通过旋转变换把相对位置信息编码进注意力分数。这样做的好处是更适合建模相对位置关系,而且在长上下文外推时通常比绝对位置编码更稳定。所以现在很多大模型都偏向用 RoPE。

8. LayerNorm 和 RMSNorm 有什么区别?

答:LayerNorm 会先减均值,再除以标准差:不减均值,只按均方根做缩放: 计算更简单,速度更快,所以现在很多大模型更爱用 RMSNorm。从效果上说,RMSNorm 在大模型里经常已经够用了。

9. Pre-Norm 和 Post-Norm 的区别是什么?

答:Pre-Norm 是先做归一化,再进注意力或 MLP;Post-Norm 是先经过子层,再做归一化。现在大模型普遍更偏向 Pre-Norm,因为深层网络训练更稳定,梯度传播更顺。Post-Norm 在层数不深时问题不大,但模型一深就更容易训练困难。

10. 大模型里的 FFN 或 MLP 层是做什么的?

答:Attention 负责建模 token 和 token 之间的关系,FFN 负责对每个位置上的表示做非线性变换,增强表达能力。它通常是两层线性层,中间接激活函数,形式类似:其中中间维度一般会比隐藏维度大很多,比如 4 倍。所以一个 Transformer Block 里,Atte

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
总结的非常好
点赞 回复 分享
发布于 03-31 10:09 安徽
可以的,写的真的好啊
点赞 回复 分享
发布于 03-26 23:40 北京
可以的,总结的很好呢
点赞 回复 分享
发布于 03-25 23:27 北京

相关推荐

04-02 16:40
已编辑
昆明理工大学 算法工程师
先上数据 投递 32家 2月下旬到3月上旬笔试 做了15场 含测评收到面试 4家第一场笔试 2月28日第一场面试 3月15日笔面间隔 15天具体经历2月底那周连着做了三场笔试 拼多多 美团 携程 一场接一场 做完人都是麻的然后就开始了漫长的等待3月初那几天 我每天刷牛客看别人笔试完多久约面 有人说三天 有人说一周 我等到第五天 邮箱除了广告啥也没有 等到第七天 开始怀疑是不是笔试挂了 等到第十天 已经做好全部石沉大海的准备了3月10号那天心态确实崩了一下 15场笔试换不来一场面试 说不怀疑自己是假的转折发生在3月15号下午两点我在图书馆刷题 手机震了一下 看了一眼 邮件加短信 某中厂 做云的 base北京 约一面看到面试邀请四个字的时候 我手抖了一下 不是因为激动 是等了太久 突然来了反而不敢相信 我把手机扣在桌上缓了十秒才拿起来仔细看然后3月16 17 18 三天连着来了3家 华为 荣耀 一个小厂 就跟公交车似的 等半天不来 一来来一串笔面间隔时间线 给大伙参考中厂A 笔试完第5天约面华为 笔试完第8天约面 性格测评后第3天荣耀 笔试完第11天约面小厂 笔试完第3天约面一点经验第一 笔试完别干等 把错题啃透等面试那15天 我把笔试做过的题全部过了一遍 尤其是编程题没AC的 不管是因为边界条件没处理好还是思路卡壳 我都重新理了一遍 在IDE里跑通才罢休 后来面试真的有被问到 笔试那道题你当时怎么想的 现在有没有更好的解法 如果不是提前复盘过 现场肯定卡壳第二 邮箱和短信都看 别漏了我有一家的短信进了拦截 邮件没提醒 幸亏那几天心里不踏实 每天手动翻一遍垃圾箱才发现 那家后来面到了二面第三 别跟别人比进度 没有意义我室友投得比我晚 面得比我早 那几天看他准备面试我还在等 确实难受 但后来想明白了 每个人投的岗位 部门 HC情况都不一样 别人三天约面不代表你挂了 我翻牛客去年的帖子 有人笔试完两周才收到面试 最后还是拿了offer第四 笔试做多了真的有肌肉记忆15场笔试不是白做的 到后面 选择题的八股套路基本摸清了 编程题的输入输出格式也不用反复试了 每场能省出10到15分钟给难题 最后拿到面试的那几家 我推测笔试成绩应该都不差 因为面试官在自我介绍时说了句 你笔试成绩还不错第五 记录每一场的笔试题我建了一个Excel 每场笔试完立刻记下考了哪些知识点 哪道题没做出来 哪个题做得不顺 15场记下来 发现考得最多的就是动态规划 二叉树 哈希表 后面我就重点刷这几类 命中率确实高了转化率供参考15场笔试 换 4个面试 转化率不到百分之27 按这个比例 如果你做了10场还没动静 可能不是你不行 是概率还没轮到你 再投几家 再做几场 总会来的最后整理了一个笔试复盘模板 需要自取公司名称:拼多多笔试日期:2月28日AC情况:2/3卡壳的题目:第三题动态规划卡壳原因:边界条件没处理好复盘后是否掌握:是祝我们都上!
做完笔试后你收到面试了吗...
点赞 评论 收藏
分享
评论
2
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务