首页 > 试题广场 >

你怎么把 Transformer 用到图像任务上的?和 CN

[问答题]
你怎么把 Transformer 用到图像任务上的?和 CNN 相比优劣在哪些场景体现?
ViT Transformer:图像分块:将图像划分为多个patch。线性输入:每个patch通过线性投影映射到D维向量上(一个长度为x的token序列,每个序列代表一个patch)。添加位置编码:使用可学习的位置编码,告诉模型每个patch的空间位置。4.引入分类token:在序列开头添加一个特殊token,用于最终分类。 Transformer:大数据预训练,迁移学习,适合全局上下文理解的任务。CNN:小数据量训练,实时部署,局部特征主导的任务。
发表于 2026-01-22 16:12:44 回复(0)