AI-Agent 面试题汇总 - 计算机视觉篇(图像分类)

1. GoogleNet 采用了什么结构?Inception V1/V2/V3/V4 的演进是什么?

GoogLeNet 的核心是 Inception 模块:在同一层并行使用不同尺度卷积核(1×1、3×3、5×5)与池化,再拼接输出,提升多尺度特征提取能力。演进思路:

  • V1:提出 Inception,1×1 降维减少计算量。
  • V2:加入 BatchNorm,训练更稳定。
  • V3:卷积分解(如 3×3→1×3+3×1),进一步降算力。
  • V4:更深更宽,并结合 Inception-ResNet 思路提升性能。

2. 池化分为哪几种?特点和作用是什么?

常见池化:

  • 最大池化(Max Pooling):保留最强响应,突出纹理/边缘。
  • 平均池化(Average Pooling):平滑特征,保留整体统计。
  • 全局平均池化(GAP):每个通道压成1个值,减少参数、防过拟合。

作用:降采样、减少计算、增强平移不变性、抑制噪声。

import torch.nn as nn
max_pool = nn.MaxPool2d(kernel_size=2, stride=2)
avg_pool = nn.AvgPool2d(kernel_size=2, stride=2)
gap = nn.AdaptiveAvgPool2d((1, 1))

3. 卷积神经网络的组成

典型 CNN 由以下部分构成:

  1. 卷积层(提取局部特征)
  2. 激活函数(引入非线性)
  3. 池化层(降采样)
  4. 归一化层(稳定训练,如BN)
  5. 全连接层或分类头(输出类别概率)
import torch.nn as nn
model = nn.Sequential(
    nn.Conv2d(3, 32, 3, padding=1),
    nn.ReLU(),
    nn.MaxPool2d(2),
    nn.Conv2d(32, 64, 3, padding=1),
    nn.ReLU(),
    nn.AdaptiveAvgPool2d((1,1)),
    nn.Flatten(),
    nn.Linear(64, 10)
)

4. 为什么 CNN 对像素级别的分类很难?

CNN 的高层特征经过多次下采样,空间分辨率降低,细粒度像素位置信息丢失;而像素级分类(如语义分割)需要精确边界定位。因此要结合上采样、跳连(s

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务