首页 > 试题广场 >

ViT(Vision Transformer)将图像划分为固

[单选题]
ViT(Vision Transformer)将图像划分为固定大小的patch后,位置编码的作用是什么?
  • 提供patch之间的语义关系
  • 为模型提供patch的空间位置信息,因为self-attention本身是排列不变的
  • 减少模型的参数量
  • 增强模型对旋转的不变性

这道题你会答吗?花几分钟告诉大家答案吧!