vision transformer为什么要用卷积分块？

为什么分块这里用了1616的卷积核，这样经过卷积后的图片HW不就从224变成14了吗？实际上1414才是实际上的卷积后的特征，768只是输出的通道数量

论文中，768是16163才是每个patch的所代表的像素展平值，这和代码中的768是通道数量是否冲突了呢？

初学者请教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
无疆76 2024-11-11 21:58
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

Vision Transformer（ViT）中使用卷积层（卷积分块）的主要原因是为了提取局部特征并减少计算复杂性。在ViT中，输入图像被分割成一系列的小块（patches），然后通过卷积层进行特征提取。卷积层可以帮助模型学习局部和全局特征，这对于图像识别和分类等任务非常重要。

关于使用特定大小的卷积核（如16x16），其主要目的是对输入图像进行下采样。当你使用大小为16x16的卷积核并且步长为16时，每次卷积操作都会使图像的高度和宽度缩小16倍。所以，如果你有一个224x224的图像，经过这个卷积核处理后，确实会变成14x14的特征图。这里的768代表的是输出通道数，也就是卷积层提取的特征数量，而不是像素数量。因此，论文中提到的768并不与代码中的像素大小冲突。每个patch在经过卷积层处理后，都会得到一个由768个特征组成的表示。这些特征会作为后续处理的输入。关于代码的flat操作，这个可能是在对卷积后的结果进行展平操作，以便于进行后续处理。这种展平操作在处理多维数据时很常见，尤其是在神经网络中。通过这种方式，你可以将多维的特征图转化为一维数组或其他数据结构。然后送入下一层网络处理或输出分类结果。这样可以在模型中形成一条完整的信息处理链路，完成特定的任务。最后强调一下，"代码中的像素数量和实际代码实现的特征通道数量并无直接冲突"。它们的概念和使用方式都是不同的。总结来说，"初学者对这两个概念感到困惑是完全可以理解的，但它们各自代表了不同的信息维度"，不应该将它们混淆或误解。以上解释是否有助于您的理解呢？如果还有疑问欢迎继续提问。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
请给我详细描述一下我的毕设到底是要做什么？ transformer 有问必答计算机视觉语音识别
2022-08-04 11:18

回答 3 已采纳 Kinetics-400数据集，video transformer，你的任务我理解就是这个数据集的任务，多分类，你们教授也是想让你看看这篇论文，在这基础上改进。
transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
Vision Transformer这两年
2022-11-24 11:23

OneFlow深度学习框架的博客在NLP领域取得巨大成功后，Transformer架构在计算机视觉方面的作用日渐凸显，成为越来越普遍的CV工具。自2020年10月Vision Transformer模型推出以来，人们开始高度关注Transformer模型在计算机视觉上的应用。
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
datax transformer 过滤时间问题 python transformer 运维
2021-12-28 16:04

回答 1 已采纳特殊符号问题？
transformer使用 python 有问必答
2022-10-08 12:33

回答 3 已采纳意思是没有这个do_sample关键字
Vision transformer
2024-08-18 13:51

落花逐流水的博客 transformer在机器视觉中的应用。
Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
基于swin transformer的毕设 transformer
2022-11-15 11:37

回答 3 已采纳是有足够时间让你完成。首先swin的理论还是基于卷积神经网络，其次swin的大热，也让它的源码处处可见可查。
Vision Transformer(vit)原理分析以及特征可视化
2023-08-29 17:42

爱吃肉的鹏的博客 Vision Transformer（ViT）是一种基于架构的深度学习模型，用于图像识别和计算机视觉任务。与传统的卷积神经网络（CNN）不同，ViT直接，并利用自注意力机制来...为什么不能直接将transformer直接应用于图像处理中呢？
swin transformer训练数据集如何添加负样本人工智能深度学习目标检测
2023-03-17 18:46

回答 7 已采纳参考GPT和自己的思路，1.添加负样本的方法负样本是指不属于目标类别的样本，一般用于训练分类器或检测器来增加模型的泛化能力。添加负样本的方式可以是随机采样、手动选择或者从其他数据集中选择。在训练过程中
Vision Transformer (ViT) 核心原理详解与应用解析
2024-10-10 09:00

Hello.Reader的博客模型最初是为自然语言处理（NLP）任务而提出的，尤其是在序列建模任务上（如机器翻译、文本生成等）表现出色。Transformer 的核心机制是自注意力机制（Self-Attention），它可以高效地捕获序列中任意位置之间的依赖...
Vision Transformer及其变体（自用）
2023-10-25 08:16

ST-Naive的博客不过实际操作其实就是用一个核为16，步长为16的卷积来实现位置信息的嵌入与transformer中的Positional Encoding类似，我们需要给每个patch标注位置信息对于Position Embedding作者也有做一系列对比试验，在源码中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日

悬赏问题

¥15 有两个非常“自以为是”烦人的问题急期待大家解决！
¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧，别用大模型回答，大模型的答案没啥用
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error

vision transformer为什么要用卷积分块？

vision transformer为什么要用卷积分块？

为什么分块这里用了1616的卷积核，这样经过卷积后的图片HW不就从224变成14了吗？实际上1414才是实际上的卷积后的特征，768只是输出的通道数量

论文中，768是16163才是每个patch的所代表的像素展平值，这和代码中的768是通道数量是否冲突了呢？

初学者请教

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新