03-10 09:56 吉林农业大学算法工程师发布于河北

关注

AI-Agent 面试题汇总 - 深度学习篇

1. 谈谈深度学习中的归一化问题

深度学习中的归一化，核心目的是让不同层、不同特征的数值分布更稳定，从而加速训练并提高收敛稳定性。常见归一化包括输入归一化（如像素缩放到[0,1]）、BatchNorm、LayerNorm、GroupNorm。BatchNorm在mini-batch维度统计均值方差，适合CNN场景；LayerNorm在特征维度统计，常用于NLP和Transformer。归一化可以缓解梯度消失/爆炸、允许更大学习率、降低参数初始化敏感性。

import torch.nn as nn

# CNN里常见 BatchNorm2d
cnn_block = nn.Sequential(
    nn.Conv2d(3, 64, 3, padding=1),
    nn.BatchNorm2d(64),
    nn.ReLU()
)

# Transformer里常见 LayerNorm
ln = nn.LayerNorm(768)

2. LSTM结构推导，为什么比RNN好？

LSTM在RNN基础上引入“门控机制”和“细胞状态”：

遗忘门：控制历史信息保留多少
输入门：控制当前输入写入多少
输出门：控制输出多少状态它通过加法路径维护长期记忆，能显著缓解普通RNN在长序列上的梯度消失问题。因此在长文本、语音等时序任务中，LSTM通常比基础RNN记忆能力更强、训练更稳定。

import torch.nn as nn

rnn = nn.RNN(input_size=128, hidden_size=256, batch_first=True)
lstm = nn.LSTM(input_size=128, hidden_size=256, batch_first=True)

3. Sigmoid、Tanh、ReLU这三个激活函数有什么优点或不足？

Sigmoid：输出(0,1)，适合概率建模；缺点是两端饱和导致梯度接近0，且输出非零中心。
Tanh：输出(-1,1)，零中心，通常比sigmoid收敛好；但仍有饱和区梯度消失问题。
ReLU：正半轴梯度恒定、计算简单、收敛快；缺点是负半轴梯度为0，可能出现“神经元死亡”。工程上隐藏层多用ReLU族（ReLU/LeakyReLU/GELU），输出层按任务选择sigmoid或softmax。

import torch
import torch.nn.functional as F

x = torch.tensor([-2.0, -0.5, 0.0, 1.0, 3.0])
print(torch.sigmoid(x))
print(torch.tanh(x))
print(F.relu(x))

4. 为什么引入非线性激励函数？

如果网络每层都只做线性变换，多层叠加后仍等价于一层线性变换，模型表达能力有限，无法拟合复杂非线性关系。引入激活函数后，网络可以逼近复杂函数，实现高层语义抽象，这是深度学习有效的核心原因之一。

5. 为什么在神经网络中 ReLU 往往优于 Tanh 和 Sigmoid？

ReLU的正区间梯度不衰减，能减少深层网络训练时的梯度消失；同时计算仅需阈值操作，速度快。相比Sigmoid/Tanh，ReLU在深层网络中通常收敛更快、效果更稳。但ReLU也有“死亡神经元”问题，因此很多场景会用LeakyReLU、PReLU、GELU改进。

import torch.nn as nn

act1 = nn.ReLU()
act2 = nn.LeakyReLU(0.1)
act3 = nn.GELU()

6. 为什么LSTM里既有Sigmoid又有Tanh，而不是统一一种？

Sigmoid输出0~1，天然适合作“门控开关”（保留/过滤信息比例）；Tanh输出-1~1，适合作状态候选值，便于表达正负语义。两者分工明确：Sigmoid负责“控制流量”，Tanh负责“表达内容”。统一成一种会削弱门控机制或表达能力。

7. 如何解决RNN梯度爆炸和梯度消失问题？

常见手段：

使用LSTM/GRU替代基础RNN
梯度裁剪（gradient clipping）防止爆炸
合理初始化（如Xavier/He）
调整学习

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

牛客174295325号

香港理工大学算法工程师

这些都是被问到的吗，感觉好细节

点赞回复分享

发布于 03-16 21:05 北京

牛客90741231号

华中科技大学区块链

LSTM门控细节

点赞回复分享

发布于 03-11 11:15 湖北

Java热爱者

蚌埠坦克学院 Java

LSTM门控细节

点赞回复分享

发布于 03-10 23:37 河北

代码练习生_code

门头沟学院 C++

蹲个面经

点赞回复分享

发布于 03-10 23:03 河北

在迎接offer的牛可乐很想潜水

这些基本都会问吗

点赞回复分享

发布于 03-10 22:17 云南

再晒一会鱼

国家开放大学前端工程师

感谢分享我发现自学很多没接触过的东西

点赞回复分享

发布于 03-10 21:42 黑龙江

03-04 08:30

蚌埠坦克学院嵌入式软件开发

嵌入式经典百套大厂面试题总结（已更新）

本专栏整理了国内主流科技公司和制造企业的嵌入式岗位面试题，涵盖互联网、AI、汽车、硬件等多个领域，帮助求职者系统准备面试。📚 目录结构禾赛科技 嵌入式软件工程师一面禾赛科技 嵌入式软件工程师二面大疆智能驾驶软件工程一面大疆智能驾驶软件工程二面特斯拉-嵌入式软件开发方向-一面特斯拉-嵌入式软件开发方向-二面安克创新 嵌入式 一面安克创新 嵌入式 二面龙旗科技Linux驱动开发 一面试题龙旗科技Linux驱动开发 二面试题龙旗科技Linux驱动开发 HR面英诺菲特科技 嵌入式软件开发 一面英诺菲特科技 嵌入式软件开发 二面北京零零科技 嵌入式软件开发一面北京零零科技 嵌入式软件开发二面移远通信 ...

查看9道真题和解析

点赞评论收藏

03-10 19:55

门头沟学院人工智能

Agent实习一面阿里国际感觉好难啊

给我面没招了，发点面经攒攒人品～1*当大模型产生错误回答或幻觉时，在工程和算法层面有哪些规避手段？2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么？在模型对齐（如 PPO/DPO）中起什么作用？4* MoE架构的具体实现原理是什么？路由（Router）是如何工作的？5* 面对模型在生成过程中出现循环、重复回答的问题，有哪些解决办法？6* BM25 算法的数学原理是什么？它相比于简单的 TF-IDF 有哪些改进？7* Agent 系统中的LangGraph是如何搭建的？其 Memory 组件的工作机制是怎样的？8* 如果单次生成的任务量远大于模型的 Max Tokens 限制，如何实现断点继续生成？9* Transformer 中 Attention 的本质是什么？请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别？12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案？13* 在 Agent 多轮对话任务中，Attention 机制的局限性体现在哪些方面？14* 为什么模型在长上下文对话中容易出现“信息遗忘”？有哪些缓解机制？15* 介绍 SFT的流程，以及如何构建高质量、多样化的数据集？16* 在什么业务场景下，必须引入 RLHF 或 DPO 这种偏好对齐技术？17* MinerU 在解析复杂的工业文档（如图文混排）时，具体的处理逻辑是怎样的？18* 在多模态检索中，文本和图片是如何映射到同一个统一向量空间的？19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么？20* 相比于 LangChain，LangGraph 在处理循环任务和状态管理上有哪些优势？21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的？

点赞评论收藏

03-11 17:38

门头沟学院 Java

数据库三大范式

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花数据库三大范式是为了消除数据冗余、避免更新异常、保证数据一致性而制定的设计准则，核心是“逐步规范化”，从基础到严格依次为：第一范式（1NF）：原子性核心要求：数据表中的每一列（属性）都必须是不可再分的原子值，不能存在复合属性、多值属性。通俗理解：一列只能存一种类型的单一数据，不能拆分成多个子项（比如“姓名”不能拆成“姓+名”存放在同一列，若需拆分则需分为两列）。示例：不符合1NF的列——“联系方式”（包含电话+微信）；符合1NF的列——“电话”“微信”分开存储。实操案例：设计...

MySQL基础

点赞评论收藏

03-07 08:35

门头沟学院机器学习

阿里淘天大模型算法实习面经好难啊

继续来分享下之前的面经~欢迎友好讨论，信息共享1. Transformer中Attention的本质是什么？你能从数学角度简要解释一下吗？2. 在Agent多轮对话任务中，你觉得Attention的局限性体现在哪些方面？3. 简要介绍一下SFT的核心流程，以及数据集的构建策略，SFT之后常见的Post-Training还有哪些？它们之间的目的有何区别？4. 什么是RAG，它是怎么提升生成质量的？与传统检索＋模型生成的流程有何不同？如何评估一个RAG系统是否work的？5. PPO和DPO在大模型对齐中的主要区别是什么？DPO训练通常有哪些注意事项？用过GRPO么？6. 项目里的Modular Agent，你能讲讲它是如何实现多步规划的吗？7. 项目提到了多个工具调用链路，调度策略是如何设计的？是否有异常fallback策略？8. Agent评估体系包括哪些维度？如何衡量planning能力 vs hallucination rate？9. 项目里微调Qwen，选择的训练阶段和Loss函数是如何决定的？10. Prompt自动推荐模块用了哪些优化策略？有没有尝试过Prompt压缩或embedding表示的方式？11. 场景题：假如一个Agent 推理链路包含3个工具+高频请求，系统整体延迟较高，你会如何优化？12. 代码：岛屿数量

点赞评论收藏

03-07 12:22

字节跳动_TT图文_研发(实习员工)

再战27暑期实习！懂车帝Agent架构二面

自我介绍实习经历（下面只写一些通用可能考察的地方）Multi-Agent 架构的Agent应用应该如何搭建，为什么需要用Multi-Agent 架构，会存在哪些问题？八股文Redis 实现分布式锁的命令为什么Redis能实现分布式锁Nx是什么的缩写算法K个一组翻转链表整体节奏很轻松，跟面试官几乎是聊天式的交流，很友好，然后面完几个小时就约HR面

查看6道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 正在春招的你，也参与了去年秋招吗？ #

# 面试官最爱问的 AI 问题是...... #

# 把自己当AI，现在最消耗你token的问题是什么？ #