首页 > 试题广场 >

你怎么把 Transformer 用到图像任务上的？和 CN

[问答题]

你怎么把 Transformer 用到图像任务上的？和 CNN 相比优劣在哪些场景体现？

klro头像

klro

ViT Transformer：图像分块：将图像划分为多个patch。线性输入：每个patch通过线性投影映射到D维向量上（一个长度为x的token序列，每个序列代表一个patch）。添加位置编码：使用可学习的位置编码，告诉模型每个patch的空间位置。4.引入分类token：在序列开头添加一个特殊token，用于最终分类。 Transformer：大数据预训练，迁移学习，适合全局上下文理解的任务。CNN：小数据量训练，实时部署，局部特征主导的任务。

发表于 2026-01-22 16:12:44 回复(0)

提交观点

问题信息

来自：2025年-华为-AI...

难度：

1条回答 0收藏 289浏览

热门推荐

相关试题

不借助深度学习框架，直接用 num...

评论(0) 来自2025年-华为-AI算...
什么是梯度爆炸和梯度消失？它们的原...

评论(2) 来自2025年-华为-AI算...
强化学习后训练里，为何选择 PPO...

评论(0) 来自2025年-华为-AI算...
KV Cache 在训练和推理中的...

评论(3) 来自2025年-华为-AI算...
给我讲讲多头注意力的计算流程与复杂...

评论(3) 来自2025年-华为-AI算...

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号