AI-Agent 面试题汇总 - 深度学习篇

1. 谈谈深度学习中的归一化问题

深度学习中的归一化,核心目的是让不同层、不同特征的数值分布更稳定,从而加速训练并提高收敛稳定性。常见归一化包括输入归一化(如像素缩放到[0,1])、BatchNorm、LayerNorm、GroupNorm。BatchNorm在mini-batch维度统计均值方差,适合CNN场景;LayerNorm在特征维度统计,常用于NLP和Transformer。归一化可以缓解梯度消失/爆炸、允许更大学习率、降低参数初始化敏感性。

import torch.nn as nn

# CNN里常见 BatchNorm2d
cnn_block = nn.Sequential(
    nn.Conv2d(3, 64, 3, padding=1),
    nn.BatchNorm2d(64),
    nn.ReLU()
)

# Transformer里常见 LayerNorm
ln = nn.LayerNorm(768)

2. LSTM结构推导,为什么比RNN好?

LSTM在RNN基础上引入“门控机制”和“细胞状态”:

  • 遗忘门:控制历史信息保留多少
  • 输入门:控制当前输入写入多少
  • 输出门:控制输出多少状态它通过加法路径维护长期记忆,能显著缓解普通RNN在长序列上的梯度消失问题。因此在长文本、语音等时序任务中,LSTM通常比基础RNN记忆能力更强、训练更稳定。
import torch.nn as nn

rnn = nn.RNN(input_size=128, hidden_size=256, batch_first=True)
lstm = nn.LSTM(input_size=128, hidden_size=256, batch_first=True)

3. Sigmoid、Tanh、ReLU这三个激活函数有什么优点或不足?

  • Sigmoid:输出(0,1),适合概率建模;缺点是两端饱和导致梯度接近0,且输出非零中心。
  • Tanh:输出(-1,1),零中心,通常比sigmoid收敛好;但仍有饱和区梯度消失问题。
  • ReLU:正半轴梯度恒定、计算简单、收敛快;缺点是负半轴梯度为0,可能出现“神经元死亡”。工程上隐藏层多用ReLU族(ReLU/LeakyReLU/GELU),输出层按任务选择sigmoid或softmax。
import torch
import torch.nn.functional as F

x = torch.tensor([-2.0, -0.5, 0.0, 1.0, 3.0])
print(torch.sigmoid(x))
print(torch.tanh(x))
print(F.relu(x))

4. 为什么引入非线性激励函数?

如果网络每层都只做线性变换,多层叠加后仍等价于一层线性变换,模型表达能力有限,无法拟合复杂非线性关系。引入激活函数后,网络可以逼近复杂函数,实现高层语义抽象,这是深度学习有效的核心原因之一。

5. 为什么在神经网络中 ReLU 往往优于 Tanh 和 Sigmoid?

ReLU的正区间梯度不衰减,能减少深层网络训练时的梯度消失;同时计算仅需阈值操作,速度快。相比Sigmoid/Tanh,ReLU在深层网络中通常收敛更快、效果更稳。但ReLU也有“死亡神经元”问题,因此很多场景会用LeakyReLU、PReLU、GELU改进。

import torch.nn as nn

act1 = nn.ReLU()
act2 = nn.LeakyReLU(0.1)
act3 = nn.GELU()

6. 为什么LSTM里既有Sigmoid又有Tanh,而不是统一一种?

Sigmoid输出0~1,天然适合作“门控开关”(保留/过滤信息比例);Tanh输出-1~1,适合作状态候选值,便于表达正负语义。两者分工明确:Sigmoid负责“控制流量”,Tanh负责“表达内容”。统一成一种会削弱门控机制或表达能力。

7. 如何解决RNN梯度爆炸和梯度消失问题?

常见手段:

  1. 使用LSTM/GRU替代基础RNN
  2. 梯度裁剪(gradient clipping)防止爆炸
  3. 合理初始化(如Xavier/He)
  4. 调整学习

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
这些都是被问到的吗,感觉好细节
点赞 回复 分享
发布于 03-16 21:05 北京
LSTM门控细节
点赞 回复 分享
发布于 03-11 11:15 湖北
LSTM门控细节
点赞 回复 分享
发布于 03-10 23:37 河北
蹲个面经
点赞 回复 分享
发布于 03-10 23:03 河北
这些基本都会问吗
点赞 回复 分享
发布于 03-10 22:17 云南
感谢分享 我发现自学很多没接触过的东西
点赞 回复 分享
发布于 03-10 21:42 黑龙江

相关推荐

给我面没招了,发点面经攒攒人品~1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?9* Transformer 中 Attention 的本质是什么?请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
2
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务