AI主理牛

06-03 18:54 已编辑牛客运营

发布于陕西

关注

15 家大厂 AI 面经汇总

本文按公司归类 AI 方向高频考察问题 + 面试要点。

字节

常考方向:题量大、节奏快;项目深挖 + 八股 + 手撕几乎必考;Agent / AI Coding / 大模型方向最近一年高频。

高频面试题:

项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。
你觉得字节做 AI 应用最大的瓶颈是什么？
- 思路:不要黑也不要捧;从「数据壁垒/模型能力天花板/对齐成本/产品场景」挑 1-2 个谈,能联系自己接触过的事更好。
在构建数据集的过程中，遇到了哪些挑战？
- 思路:数据清洗、标注一致性、长尾覆盖、版权/隐私、合成数据质量评估,挑 2-3 个深入。

Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。
Function Calling 和 MCP 的区别
- 思路:FC 是模型↔工具的协议(OpenAI 起源);MCP 是工具/数据源标准协议(Anthropic),目标让工具跨模型/跨 Agent 复用。
多 Agent 系统怎么协作?常见架构有哪些
- 思路:中心化(Orchestrator+Worker) / 去中心化(消息总线) / 分层(Manager→Specialist);讲清「分配/避免循环/聚合」。

RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-1500 字常用,按语义边界(段/小节)切,加 overlap。
向量召回和 BM25 关键词召回各自适合什么场景?为什么要混合
- 思路:向量懂语义/同义改写;BM25 对术语/精确匹配强。常做 hybrid + Rerank 取长补短。

面试要点:

项目深挖必备:每个 AI 项目准备 5 层下挖(方案 - 架构 - 选型 - 踩坑 - 指标)
Agent / AI Coding 是当下重灾区,LangChain / MCP / Function Call 必须能说清原理
手撕必有:Leetcode 中等题 + 偶尔小型工程题(实现简易 RAG / Agent)
节奏快,2-3 天出结果,准备好 1-2 个深度项目随时讲

腾讯

常考方向:八股偏多、问题密度高;CSIG / PCG / 微信不同 BG 侧重不同;混元相关问题在大模型岗增加。

高频面试题:

RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-1500 字常用,按语义边界(段/小节)切,加 overlap。
向量召回和 BM25 关键词召回各自适合什么场景?为什么要混合
- 思路:向量懂语义/同义改写;BM25 对术语/精确匹配强。常做 hybrid + Rerank 取长补短。
RAG 中长文档切片的粒度和分块策略如何设计与优化？
- 思路:按章节/段落切 + 父子块(细粒度召回,父块送 LLM) + 重叠 + 元数据保留(标题/页码)。
RAG 系统评测的维度和常用指标如何设计？
- 思路:检索侧(Recall@K/MRR/NDCG) + 生成侧(忠实度/相关性/有用性) + 端到端任务成功率。
RAG 系统中的文档分块策略如何设计？
- 思路:同上;补一句「按文档类型分策略:文本按段、代码按函数、表格整块」。
chunk 大小、父子分块和不同文档格式要怎么取舍？
- 思路:文本按段、代码按函数、表格整块;父子提高召回不丢上下文,权衡 token 成本。

微调 / 对齐

SFT / RLHF / DPO 的区别
- 思路:SFT 监督学指令+回答;RLHF 用奖励模型+PPO 对齐偏好;DPO 跳过奖励模型直接用偏好对训。SFT 基础,DPO 简单稳定。
什么场景选择微调而不是 RAG
- 思路:知识相对静态 + 要风格/格式化输出 + 推理速度敏感 + 私有部署 + RAG 解决不了的隐式知识。
LoRA / QLoRA 的原理
- 思路:LoRA: 冻结主参数加低秩矩阵 ΔW=A·B 训练;QLoRA: 主参 4bit 量化 + LoRA,单卡可微调 7B/13B。
微调数据集怎么构建?数据量多少合适
- 思路:任务定义→种子数据→大模型扩写→人工质检→多样性平衡;SFT 几千-几万够起步,看任务复杂度。
大模型微调，你的训练数据集是如何构建的？
- 思路:同上;强调「数据质量 > 数据量」,去重+均衡分布+人工抽检。
GRPO 和 PPO 的核心区别是什么？
- 思路:PPO 需要单独 Value/Reward 网络;GRPO 用组内相对优势(group baseline)替代 value model,省一个网络,更稳更省显存。
LoRA的原理？
- 思路:冻结主参数,在权重旁插低秩 ΔW = A·B(r 很小),只训 A、B。推理时合并或独立加载,小成本适配多任务。

大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
Transformer 的整体架构,Encoder 和 Decoder 各负责什么?
- 思路:Encoder 双向理解,Decoder 自回归生成;原 Transformer 是 Enc-Dec(机器翻译),LLM 主流是 Decoder-only。
你对 Transformer 架构的了解有多少？
- 思路:讲 attention/FFN/Norm/位置编码 + 介绍自己看过的源码/做过的改动;有项目经验加分。

项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。

面试要点:

八股密度高,RAG / 微调 / 对齐三大块全覆盖
WXG 偏业务场景, CSIG 偏 ToB 解决方案, PCG 偏内容生成
混元相关问题在大模型岗占比上升,提前了解架构和应用

阿里

常考方向:面试流程长,3-5 轮 + 交叉面常见;项目架构 + 业务理解权重高;通义 / 达摩院偏研究方向更深。

高频面试题:

项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。
在构建数据集的过程中，遇到了哪些挑战？
- 思路:数据清洗、标注一致性、长尾覆盖、版权/隐私、合成数据质量评估,挑 2-3 个深入。
你做过的 AI 项目中最困难的技术挑战是什么，你是如何解决的？
- 思路:和「核心难点」同框,加一句「我用了 XX 方法量化解决了 XX 问题」,有数字最好。

大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。
Transformer 的整体架构,Encoder 和 Decoder 各负责什么?
- 思路:Encoder 双向理解,Decoder 自回归生成;原 Transformer 是 Enc-Dec(机器翻译),LLM 主流是 Decoder-only。

RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-1500 字常用,按语义边界(段/小节)切,加 overlap。
向量召回和 BM25 关键词召回各自适合什么场景?为什么要混合
- 思路:向量懂语义/同义改写;BM25 对术语/精确匹配强。常做 hybrid + Rerank 取长补短。
RAG 中长文档切片的粒度和分块策略如何设计与优化？
- 思路:按章节/段落切 + 父子块(细粒度召回,父块送 LLM) + 重叠 + 元数据保留(标题/页码)。
RAG 系统评测的维度和常用指标如何设计？
- 思路:检索侧(Recall@K/MRR/NDCG) + 生成侧(忠实度/相关性/有用性) + 端到端任务成功率。
RAG 系统中的文档分块策略如何设计？
- 思路:同上;补一句「按文档类型分策略:文本按段、代码按函数、表格整块」。
chunk 大小、父子分块和不同文档格式要怎么取舍？
- 思路:文本按段、代码按函数、表格整块;父子提高召回不丢上下文,权衡 token 成本。

Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。

面试要点:

面试轮次最多,3-5 轮 + 交叉面常见,每轮重点不同
项目要讲清业务价值;通义 / 达摩院方向问研究问题更深
工程 + 业务 + 算法三角能力,缺一不可

美团

常考方向:重业务理解 + 工程落地;推荐算法岗 + AI 应用岗增长明显;问得细。

高频面试题:

项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。

Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。
Function Calling 和 MCP 的区别
- 思路:FC 是模型↔工具的协议(OpenAI 起源);MCP 是工具/数据源标准协议(Anthropic),目标让工具跨模型/跨 Agent 复用。
多 Agent 系统怎么协作?常见架构有哪些
- 思路:中心化(Orchestrator+Worker) / 去中心化(消息总线) / 分层(Manager→Specialist);讲清「分配/避免循环/聚合」。
Function Call 是怎么训练的？
- 思路:SFT 阶段加入「指令-工具调用 JSON」样本对让模型学结构化输出;可加 RLHF 调函数选择正确率。
mcp 是什么？
- 思路:Model Context Protocol,Anthropic 提的开放协议,标准化「模型↔工具/数据源」接口,目的让工具跨 LLM 复用。

传统机器学习 / NLP

分词 / NER 的常见算法
- 思路:分词: HMM/CRF/BiLSTM-CRF/BERT;NER: 序列标注同上 + 大模型 ICL 直接抽取。
分类 / 回归的区别
- 思路:离散标签 vs 连续值;损失不同(交叉熵 vs MSE);评估指标不同(F1 vs MAE/MSE)。
过拟合的原因和解决
- 思路:模型容量过大/数据少/训太久;解决: 正则化 + Dropout + 早停 + 数据增强 + 简化模型。
特征工程在大模型时代还重要吗
- 思路:通用 NLP 场景下降;垂直/小数据/结构化数据仍然关键。大模型 + Prompt 替代了大部分手工特征。

面试要点:

细抠业务场景:推荐 / 配送 / 外卖里的 AI 落地
工程化权重高,问题落到实际指标和系统设计

拼多多

常考方向:节奏极快、压力面常见;问题硬核、不绕弯;偏工程能力 + 算法基本功。

高频面试题:

大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。

Coding / 手撕 / 算法题

手撕 Transformer 简化版
- 思路:实现 Multi-Head Attention + LayerNorm + FFN 一个 block;KV 投影、scale、mask、softmax 关键。
实现简易的 self-attention
- 思路:softmax(QK^T/√d)·V,三个线性层 + scaled dot-product;要能讲清 mask、numerical stability。
实现一个 BPE 分词
- 思路:统计 byte-pair 频率 → 迭代合并最高频对 → 构建词表;重点 merge rule + encode/decode。
实现一个简易 RAG 流程
- 思路:load docs → chunk → embed → 存向量库 → query embed → top-K 检索 → 拼 prompt 调 LLM。

项目深挖 / 简历

介绍一下你做过的最有挑战的 AI 项目
- 思路:选 1 个有 AI 含量(不是套壳)、有指标、有踩坑的项目；按「业务背景→技术方案→关键难点→指标」4 段讲,控制 2-3 分钟。
这个项目的核心难点是什么
- 思路:抓「非确定性」难点(评估难/数据难/对齐难/部署难),不要泛泛说「工程量大」。
选型为什么是这个方案?对比过哪些
- 思路:至少列 2 个候选方案 + 比较维度(成本/性能/可维护性/数据需求),证明做过 trade-off。
项目踩了哪些坑?怎么解决的
- 思路:选 2-3 个具体坑(幻觉/召回低/推理慢/上下文超长),每个讲「现象→根因→方案→效果」。
你做过的 AI 项目中最困难的技术挑战是什么，你是如何解决的？
- 思路:和「核心难点」同框,加一句「我用了 XX 方法量化解决了 XX 问题」,有数字最好。
在项目中是如何进行 LLM 模型选择的？
- 思路:需求(能力/上下文/中英文)→候选(GPT/Claude/Qwen/DeepSeek)→评估(自有评估集)→trade-off(成本/合规/SLA)。
简历上的AI项目，面试官到底想看什么？
- 思路:有 AI 含量(不是套壳) + 真问题 + 有指标 + 你做了关键决策。要能讲清「我」做了什么不是「团队」做了什么。

微调 / 对齐

SFT / RLHF / DPO 的区别
- 思路:SFT 监督学指令+回答;RLHF 用奖励模型+PPO 对齐偏好;DPO 跳过奖励模型直接用偏好对训。SFT 基础,DPO 简单稳定。
什么场景选择微调而不是 RAG
- 思路:知识相对静态 + 要风格/格式化输出 + 推理速度敏感 + 私有部署 + RAG 解决不了的隐式知识。
LoRA / QLoRA 的原理
- 思路:LoRA: 冻结主参数加低秩矩阵 ΔW=A·B 训练;QLoRA: 主参 4bit 量化 + LoRA,单卡可微调 7B/13B。
微调数据集怎么构建?数据量多少合适
- 思路:任务定义→种子数据→大模型扩写→人工质检→多样性平衡;SFT 几千-几万够起步,看任务复杂度。

面试要点:

压力面常见,准备好被打断和质疑
算法基本功扎实,八股要准确不要含糊
薪资高但工作强度大,提前想清楚

百度

常考方向:传统 NLP / 搜索底子重,加上文心相关大模型问题;流程相对宽松。

高频面试题:

传统机器学习 / NLP

分词 / NER 的常见算法
- 思路:分词: HMM/CRF/BiLSTM-CRF/BERT;NER: 序列标注同上 + 大模型 ICL 直接抽取。
分类 / 回归的区别
- 思路:离散标签 vs 连续值;损失不同(交叉熵 vs MSE);评估指标不同(F1 vs MAE/MSE)。
过拟合的原因和解决
- 思路:模型容量过大/数据少/训太久;解决: 正则化 + Dropout + 早停 + 数据增强 + 简化模型。
特征工程在大模型时代还重要吗
- 思路:通用 NLP 场景下降;垂直/小数据/结构化数据仍然关键。大模型 + Prompt 替代了大部分手工特征。

大模型基础 / 架构

Transformer 的核心组件
- 思路:Self-Attention + FFN + LayerNorm + Residual + Positional Encoding;多头并行 + 残差归一化是关键。
自注意力机制详解
- 思路:Q/K/V 三个线性投影,attention=softmax(QK^T/√d)·V;O(n²) 复杂度,多头并行学不同 subspace。
RoPE 是什么?和绝对位置编码比有什么优势
- 思路:Rotary Position Embedding,把位置以旋转方式编码到 Q/K;支持长度外推 + 相对位置感知。
MoE 的原理和优势
- 思路:多专家 + 路由(gating)按 token 选 top-K 专家;激活参数少→推理便宜,总参数大→能力强。

RAG / 检索

介绍一下 RAG 的整体流程
- 思路:Query → 改写(可选) → Embed → 检索(向量+BM25 混合) → Rerank → 组装 context → LLM 生成。强调「检索是为生成服务」。
RAG 解决了大模型的什么核心问题
- 思路:幻觉、知识过时、私有数据无法访问;本质是把「事实」从模型权重里拆出来变成可更新的外部知识。
文档切片粒度怎么定?切大切小各有什么风险
- 思路:太大→噪声多+context 浪费;太小→语义不全。500-1500 字常用,按语义边界(段/小节)切,加 overlap。
向量召回和 BM25 关键词召回各自适合什么场景?为什么要混合
- 思路:向量懂语义/同义改写;BM25 对术语/精确匹配强。常做 hybrid + Rerank 取长补短。
RAG 中长文档切片的粒度和分块策略如何设计与优化？
- 思路:按章节/段落切 + 父子块(细粒度召回,父块送 LLM) + 重叠 + 元数据保留(标题/页码)。
RAG 系统评测的维度和常用指标如何设计？
- 思路:检索侧(Recall@K/MRR/NDCG) + 生成侧(忠实度/相关性/有用性) + 端到端任务成功率。
RAG 系统中的文档分块策略如何设计？
- 思路:同上;补一句「按文档类型分策略:文本按段、代码按函数、表格整块」。
chunk 大小、父子分块和不同文档格式要怎么取舍？
- 思路:文本按段、代码按函数、表格整块;父子提高召回不丢上下文,权衡 token 成本。

Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。
Function Calling 和 MCP 的区别
- 思路:FC 是模型↔工具的协议(OpenAI 起源);MCP 是工具/数据源标准协议(Anthropic),目标让工具跨模型/跨 Agent 复用。
多 Agent 系统怎么协作?常见架构有哪些
- 思路:中心化(Orchestrator+Worker) / 去中心化(消息总线) / 分层(Manager→Specialist);讲清「分配/避免循环/聚合」。

面试要点:

传统 NLP 底子要扎实(分词 / NER / 文本分类)
文心相关大模型问题逐渐增加

快手

常考方向:推荐 / 算法岗为主,可灵相关多模态问题增加;偏业务 + 工程结合。

高频面试题:

传统机器学习 / NLP

分词 / NER 的常见算法
- 思路:分词: HMM/CRF/BiLSTM-CRF/BERT;NER: 序列标注同上 + 大模型 ICL 直接抽取。
分类 / 回归的区别
- 思路:离散标签 vs 连续值;损失不同(交叉熵 vs MSE);评估指标不同(F1 vs MAE/MSE)。
过拟合的原因和解决
- 思路:模型容量过大/数据少/训太久;解决: 正则化 + Dropout + 早停 + 数据增强 + 简化模型。
特征工程在大模型时代还重要吗
- 思路:通用 NLP 场景下降;垂直/小数据/结构化数据仍然关键。大模型 + Prompt 替代了大部分手工特征。

Agent / 工具调用

介绍一下 Agent 的核心组件
- 思路:LLM(规划+推理) + Memory(短/长期) + Tools(外部能力) + Planner + Executor + Reflection;关键区别是「循环执行」而非一次调用。
ReAct 的执行流程是什么
- 思路:Thought → Action(选工具+参数) → Observation(工具结果) → Thought 循环,直到 Final Answer 或达步数上限。
Function Calling 和 MCP 的区别
- 思路:FC 是模型↔工具的协议(OpenAI 起源);MCP 是工具/数