大模型算法面经+问题+答案

大模型算法岗考察:LLM 架构原理 + 训练对齐 + 推理优化 + 实际项目经验。八股密度最高的岗位之一。

牛客 AI Coding笔试挑战杯

1、大模型基础 / 架构

  • Transformer 的核心组件
    • 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
  • 自注意力机制详解
    • 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
  • RoPE 是什么?和绝对位置编码比有什么优势
    • 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
  • MoE 的原理和优势
    • 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
  • GQA / MHA / MQA 的区别
    • 思路:MHA 每头独立 KV;MQA 所有头共用 1 组 KV(省显存);GQA 折中分组共享。Llama2 起 GQA 主流。
  • LayerNorm / RMSNorm 区别
    • 思路:LN 减均值除标准差;RMSNorm 只除 RMS 不减均值,计算少 + 效果接近,Llama/PaLM 采用。
  • 预训练 / 后训练 的区别
    • 思路:预训练学语言+世界知识(无监督);后训练学指令遵循+安全(SFT/RLHF/DPO)。能力上限看预训练,可用性看后训练。
  • Decoder-only 为什么成主流
    • 思路:见上 Decoder-only 主流原因。
  • 涌现能力是什么
    • 思路:模型规模到一定阈值后突然出现的能力(ICL/CoT/多步推理);小模型上完全没有。
  • 弱 AI vs 强 AI 的区别
    • 思路:弱 AI=专用任务(现在所有 AI 都是);强 AI=AGI 通用智力,目前不存在。
  • Transformer 的整体架构,Encoder 和 Decoder 各负责什么?
    • 思路:Encoder 双向理解,Decoder 自回归生成;原 Transformer 是 Enc-Dec(机器翻译),LLM 主流是 Decoder-only。
  • 为何现在的大模型大部分是 Decoder-only 结构?
    • 思路:训练简单(单向)、推理统一(自回归)、scaling law 友好、能用同一架构做多任务。
  • Encoder 编码器与 Decoder 掩码有什么区别?
    • 思路:Encoder 双向看全文;Decoder 用 causal mask 只看前面 token,保证自回归性质。
  • 为什么要进行 LN(LayerNorm)?
    • 思路:稳定训练 + 加速收敛;Transformer 用 LN 不用 BN 是因为序列长度可变 + 跨样本统计无意义。
  • 你对 Transformer 架构的了解有多少?
    • 思路:讲 attention/FFN/Norm/位置编码 + 介绍自己看过的源码/做过的改动;有项目经验加分。

2、微调 / 对齐

  • SFT / RLHF / DPO 的区别
    • 思路:SFT 监督学指令+回答;RLHF 用奖励模型+PPO 对齐偏好;DPO 跳过奖励模型直接用偏好对训。SFT 基础,DPO 简单稳定。
  • 什么场景选择微调而不是 RAG
    • 思路:知识相对静态 + 要风格/格式化输出 + 推理速度敏感 + 私有部署 + RAG 解决不了的隐式知识。
  • LoRA / QLoRA 的原理
    • 思路:LoRA: 冻结主参数加低秩矩阵 ΔW=A·B 训练;QLoRA: 主参 4bit 量化 + LoRA,单卡可微调 7B/13B。
  • 微调数据集怎么构建?数据量多少合适
    • 思路:任务定义→种子数据→大模型扩写→人工质检→多样性平衡;SFT 几千-几万够起步,看任务复杂度。
  • RLHF 中 reward model 怎么训
    • 思路:用人类偏好对(chosen, rejected) 训打分模型,输入 (prompt, response) 输出 reward;常用 pairwise loss。
  • PPO 在 RLHF 里的作用是什么
    • 思路:用 reward model 信号优化 LLM 策略,KL 约束防止偏离原模型太多;避免奖励黑客。
  • DPO 比 RLHF 简单在哪里
    • 思路:不训 reward model 也不需 RL,直接用偏好对优化策略损失,等价隐式奖励,工程简单很多。
  • GRPO 的核心创新是什么
    • 思路:组内相对优势替代单独的 value model,省显存省训练步,DeepSeek R1 用它实现 reasoning 大规模 RL。
  • 对齐税是什么?怎么减少
    • 思路:对齐后某些能力(创造性/推理)下降;减少: 保留预训练 mix + 混合训练 + 轻量对齐(DPO)。
  • 怎么防止微调后能力退化
    • 思路:混合通用数据(rehearsal) + PEFT 不动主权重 + 限制 LR/epoch + 多任务监督数据。
  • PEFT 有哪些方法
    • 思路:LoRA / QLoRA / Adapter / Prefix Tuning / Prompt Tuning / IA³;LoRA 系最常用。
  • 全量微调和参数高效微调怎么选
    • 思路:数据量大+预算大+追求极致→全量;数据少+预算紧+多任务→PEFT(LoRA)。
  • RLAIF 是什么
    • 思路:Reinforcement Learning from AI Feedback,用更强 LLM 当评判者代替人类做偏好标注,降人力成本。
  • 大模型微调,你的训练数据集是如何构建的?
    • 思路:同上;强调「数据质量 > 数据量」,去重+均衡分布+人工抽检。
  • LoRA的秩是多少?
    • 思路:r 通常 4-64,任务越复杂取大;太小欠拟合,太大耗显存且失去 LoRA 优势。
  • GRPO 和 PPO 的核心区别是什么?
    • 思路:PPO 需要单独 Value/Reward 网络;GRPO 用组内相对优势(group baseline)替代 value model,省一个网络,更稳更省显存。

3、Token / 上下文 / 推理

  • Token 是什么?怎么计费
    • 思路:模型最小处理单位(BPE 子词);中文 1 字≈1.3-1.5 token,英文 1 词≈0.7-1。API 按输入+输出 token 计费。
  • 上下文窗口的本质是什么
    • 思路:模型单次能 attend 的最大 token 数;受位置编码外推能力和算力限制。
  • 长上下文模型的注意力稀释问题
    • 思路:上下文过长时关键信息被淹没,模型记不住中段(lost-in-the-middle);常达标 60-70% 后体验下降。
  • KV cache 的原理和作用
    • 思路:缓存历史 K/V 避免重算,把 O(n²) 推理摊销到增量;显存压力大,量化/分页(PagedAttention) 是优化方向。
  • 流式输出怎么实现
    • 思路:SSE/WebSocket 把 token 边生成边推;服务端 yield 模型输出,前端增量渲染;要处理中断/重连/超时。
  • 推理时延怎么优化
    • 思路:Continuous batching + KV cache + 量化(INT8/4) + PagedAttention + Speculative decoding + 模型蒸馏。
  • Temperature / Top P / Top K 的作用
    • 思路:T 控随机性(0 确定/高随机);Top P 截累积概率;Top K 截前 K 个 token。组合用控制创意 vs 稳定。
  • 上下文压缩有哪些方法
    • 思路:摘要 + LLMLingua token 级压缩 + Rerank 后截断 + Map-Reduce 分段处理。
  • 为什么标称上下文用到 60-70% 就开始下降
    • 思路:注意力稀释 + 训练时长上下文样本少 + 位置编码外推不稳定。
  • 流式返回过程中网络中断、前端重连,后端如何恢复上下文继续输出?
    • 思路:用 stream_id 持久化中间状态 + 增量 token 缓存 + 前端断点续传;不可恢复时优雅中断 + 重试。
  • 用户点击“停止生成”,后端如何立即终止LLM推理、释放GPU/CPU资源?
    • 思路:结合自己项目场景回答,体现你的判断和取舍。
  • 多轮对话+流式输出,如何保证消息不乱序、上下文不丢失?
    • 思路:单连接 + sequence id;服务端按 session 串行 + 缓存待发送增量;客户端 ack 机制。
  • 跨服务流式透传(Java/Go后端+Python模型服务)如何实现?
    • 思路:gRPC streaming 或 HTTP/2 SSE 透传 + 协议适配 + 反向代理保持长连接。
  • 流式输出场景中,如何实现内容安全实时截断(检测到敏感词立即停流、清理上下文)?
    • 思路:边生成边过滤(分类器+关键词),命中立即中断 + 上下文回滚

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AIcoding笔试挑战杯福利 文章被收录于专栏

第一届牛客AI Coding笔试挑战被,报名+完赛选手即可获得 内包含以下福利: * 校招投递时间表 * 网申助手插件 * 简历模板包 * 各公司秋招笔试真题 * AI面经题库 * 本地终端部署 AI 教程

全部评论
参与中国首届·牛客AI Coding笔试挑战杯,报名+完成比赛,可解锁此专栏下的全部资料,报名链接:https://www.nowcoder.com/problem/tracker/ai/activity/aicoding-contest-s1/promo?channel=ncshequ
点赞 回复 分享
发布于 06-05 13:45 陕西

相关推荐

评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务