大模型算法面经+问题+答案

大模型算法岗考察:LLM 架构原理 + 训练对齐 + 推理优化 + 实际项目经验。八股密度最高的岗位之一。

1、大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
GQA / MHA / MQA 的区别
- 思路:MHA 每头独立 KV;MQA 所有头共用 1 组 KV(省显存);GQA 折中分组共享。Llama2 起 GQA 主流。
LayerNorm / RMSNorm 区别
- 思路:LN 减均值除标准差;RMSNorm 只除 RMS 不减均值,计算少 + 效果接近,Llama/PaLM 采用。
预训练 / 后训练的区别
- 思路:预训练学语言+世界知识(无监督);后训练学指令遵循+安全(SFT/RLHF/DPO)。能力上限看预训练,可用性看后训练。
Decoder-only 为什么成主流
- 思路:见上 Decoder-only 主流原因。
涌现能力是什么
- 思路:模型规模到一定阈值后突然出现的能力(ICL/CoT/多步推理);小模型上完全没有。
弱 AI vs 强 AI 的区别
- 思路:弱 AI=专用任务(现在所有 AI 都是);强 AI=AGI 通用智力,目前不存在。
Transformer 的整体架构,Encoder 和 Decoder 各负责什么?
- 思路:Encoder 双向理解,Decoder 自回归生成;原 Transformer 是 Enc-Dec(机器翻译),LLM 主流是 Decoder-only。
为何现在的大模型大部分是 Decoder-only 结构？
- 思路:训练简单(单向)、推理统一(自回归)、scaling law 友好、能用同一架构做多任务。
Encoder 编码器与 Decoder 掩码有什么区别？
- 思路:Encoder 双向看全文;Decoder 用 causal mask 只看前面 token,保证自回归性质。
为什么要进行 LN（LayerNorm）？
- 思路:稳定训练 + 加速收敛;Transformer 用 LN 不用 BN 是因为序列长度可变 + 跨样本统计无意义。
你对 Transformer 架构的了解有多少？
- 思路:讲 attention/FFN/Norm/位置编码 + 介绍自己看过的源码/做过的改动;有项目经验加分。

2、微调 / 对齐

SFT / RLHF / DPO 的区别
- 思路:SFT 监督学指令+回答;RLHF 用奖励模型+PPO 对齐偏好;DPO 跳过奖励模型直接用偏好对训。SFT 基础,DPO 简单稳定。
什么场景选择微调而不是 RAG
- 思路:知识相对静态 + 要风格/格式化输出 + 推理速度敏感 + 私有部署 + RAG 解决不了的隐式知识。
LoRA / QLoRA 的原理
- 思路:LoRA: 冻结主参数加低秩矩阵 ΔW=A·B 训练;QLoRA: 主参 4bit 量化 + LoRA,单卡可微调 7B/13B。
微调数据集怎么构建?数据量多少合适
- 思路:任务定义→种子数据→大模型扩写→人工质检→多样性平衡;SFT 几千-几万够起步,看任务复杂度。
RLHF 中 reward model 怎么训
- 思路:用人类偏好对(chosen, rejected) 训打分模型,输入 (prompt, response) 输出 reward;常用 pairwise loss。
PPO 在 RLHF 里的作用是什么
- 思路:用 reward model 信号优化 LLM 策略,KL 约束防止偏离原模型太多;避免奖励黑客。
DPO 比 RLHF 简单在哪里
- 思路:不训 reward model 也不需 RL,直接用偏好对优化策略损失,等价隐式奖励,工程简单很多。
GRPO 的核心创新是什么
- 思路:组内相对优势替代单独的 value model,省显存省训练步,DeepSeek R1 用它实现 reasoning 大规模 RL。
对齐税是什么?怎么减少
- 思路:对齐后某些能力(创造性/推理)下降;减少: 保留预训练 mix + 混合训练 + 轻量对齐(DPO)。
怎么防止微调后能力退化
- 思路:混合通用数据(rehearsal) + PEFT 不动主权重 + 限制 LR/epoch + 多任务监督数据。
PEFT 有哪些方法
- 思路:LoRA / QLoRA / Adapter / Prefix Tuning / Prompt Tuning / IA³;LoRA 系最常用。
全量微调和参数高效微调怎么选
- 思路:数据量大+预算大+追求极致→全量;数据少+预算紧+多任务→PEFT(LoRA)。
RLAIF 是什么
- 思路:Reinforcement Learning from AI Feedback,用更强 LLM 当评判者代替人类做偏好标注,降人力成本。
大模型微调，你的训练数据集是如何构建的？
- 思路:同上;强调「数据质量 > 数据量」,去重+均衡分布+人工抽检。
LoRA的秩是多少？
- 思路:r 通常 4-64,任务越复杂取大;太小欠拟合,太大耗显存且失去 LoRA 优势。
GRPO 和 PPO 的核心区别是什么？
- 思路:PPO 需要单独 Value/Reward 网络;GRPO 用组内相对优势(group baseline)替代 value model,省一个网络,更稳更省显存。

3、Token / 上下文 / 推理

Token 是什么?怎么计费
- 思路:模型最小处理单位(BPE 子词);中文 1 字≈1.3-1.5 token,英文 1 词≈0.7-1。API 按输入+输出 token 计费。
上下文窗口的本质是什么
- 思路:模型单次能 attend 的最大 token 数;受位置编码外推能力和算力限制。
长上下文模型的注意力稀释问题
- 思路:上下文过长时关键信息被淹没,模型记不住中段(lost-in-the-middle);常达标 60-70% 后体验下降。
KV cache 的原理和作用
- 思路:缓存历史 K/V 避免重算,把 O(n²) 推理摊销到增量;显存压力大,量化/分页(PagedAttention) 是优化方向。
流式输出怎么实现
- 思路:SSE/WebSocket 把 token 边生成边推;服务端 yield 模型输出,前端增量渲染;要处理中断/重连/超时。
推理时延怎么优化
- 思路:Continuous batching + KV cache + 量化(INT8/4) + PagedAttention + Speculative decoding + 模型蒸馏。
Temperature / Top P / Top K 的作用
- 思路:T 控随机性(0 确定/高随机);Top P 截累积概率;Top K 截前 K 个 token。组合用控制创意 vs 稳定。
上下文压缩有哪些方法
- 思路:摘要 + LLMLingua token 级压缩 + Rerank 后截断 + Map-Reduce 分段处理。
为什么标称上下文用到 60-70% 就开始下降
- 思路:注意力稀释 + 训练时长上下文样本少 + 位置编码外推不稳定。
流式返回过程中网络中断、前端重连，后端如何恢复上下文继续输出？
- 思路:用 stream_id 持久化中间状态 + 增量 token 缓存 + 前端断点续传;不可恢复时优雅中断 + 重试。
用户点击“停止生成”，后端如何立即终止LLM推理、释放GPU/CPU资源？
- 思路:结合自己项目场景回答,体现你的判断和取舍。
多轮对话+流式输出，如何保证消息不乱序、上下文不丢失？
- 思路:单连接 + sequence id;服务端按 session 串行 + 缓存待发送增量;客户端 ack 机制。
跨服务流式透传（Java/Go后端+Python模型服务）如何实现？
- 思路:gRPC streaming 或 HTTP/2 SSE 透传 + 协议适配 + 反向代理保持长连接。
流式输出场景中，如何实现内容安全实时截断（检测到敏感词立即停流、清理上下文）？
- 思路:边生成边过滤(分类器+关键词),命中立即中断 + 上下文回滚