【目标检测】YOLOv3


论文

YOLO v3

网络结构

YOLOv3加深了网络,卷积的层数达到了106层。相较于之前的版本,最大的变化在于使用不同尺度的特征图进行检测。网络结构如图所示:

图来源:https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b

  • 在82层卷积处输出第一个检测结果。假设图片的输入大小为416×416,此时特征图的大小为13×13。每一个cell设置3个anchor,每一个anchor预测(4+1+C)个值,假设类别为60类,那么共计输出3×(4+1+60)=255个值,即输出维度为13×13×255。
  • 第79层的卷积的输出结果继续进行卷积操作,上采样,和浅层特征融合,卷积,得到第二种尺寸的检测输出。输出维度为26×26×255
  • 后面进行与第二步类似的操作,输出维度为52×52×255

在YOLOv3中,预设的anchor个数共有 ( 13 13 + 26 26 52 52 ) 3 = 10647 (13*13+26*26*52*52)*3=10647 (1313+26265252)3=10647;YOLOv2***有 13 13 5 = 845 13*13*5=845 13135=845

每一种scale中预设的anchor是从数据集中聚类得到的9种中的三种。

使用不同尺度的特征图来预测,改善了YOLO对小物体的检测效果。

类别预测

将softmax预测换成了二分类的多标签预测,因为在一些数据集中,例如有些框体可以同时有Woman和Person这两个标签。

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务