亚大伯斯 2025-11-11 04:15 采纳率: 98.6%

已采纳

Conv2D输出尺寸如何计算？图解说明

在使用Conv2D层时，一个常见问题是：**当输入尺寸为 $ H \times W $，卷积核大小为 $ K \times K $，步幅为 $ S $，填充为 $ P $ 时，输出特征图的尺寸如何计算？** 尤其在搭建CNN网络时，若未正确推导输出高和宽，会导致后续层维度不匹配。例如，输入为 $ 32 \times 32 $，卷积核 $ 5 \times 5 $，步幅2，填充1，输出是多少？许多初学者混淆公式中是否向上/向下取整，或误解填充方式对边界的影响。需结合图示清晰说明输出尺寸公式： \[ \left\lfloor \frac{H + 2P - K}{S} \right\rfloor + 1 \] 并图解滑动窗口过程，明确每一步的空间变化。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

娟娟童装 2025-11-11 09:05

关注

卷积神经网络中Conv2D输出尺寸的精确计算与空间变换解析

1. 问题引入：为何输出尺寸计算至关重要？

在构建卷积神经网络（CNN）时，Conv2D 层是最基础且最常用的组件之一。然而，许多开发者，即便是有多年经验的工程师，在设计复杂网络结构时仍会因输出特征图尺寸计算错误而导致后续层维度不匹配。

例如，输入图像为 $32 \times 32$，使用 $5 \times 5$ 卷积核、步幅为 2、填充为 1，若未正确推导，可能误判输出为 $16 \times 16$ 或 $15 \times 15$，而实际结果应为：

\[ \left\lfloor \frac{32 + 2 \times 1 - 5}{2} \right\rfloor + 1 = \left\lfloor \frac{29}{2} \right\rfloor + 1 = 14 + 1 = 15 \]

因此输出为 $15 \times 15$。这一误差虽小，但在堆叠多个卷积层后可能导致全连接层输入维度错误，引发训练中断。

2. 基础公式推导：从滑动窗口理解输出尺寸

考虑一个二维输入特征图，尺寸为 $H \times W$，卷积核大小为 $K \times K$，步幅为 $S$，填充为 $P$。填充是在输入四周添加 $P$ 行/列零值像素。

填充后的有效输入尺寸变为 $(H + 2P) \times (W + 2P)$。

卷积核从左上角开始，每次向右或向下移动 $S$ 步，直到无法再移动为止。

沿高度方向可滑动的次数为：

\[ \text{滑动次数} = \left\lfloor \frac{H + 2P - K}{S} \right\rfloor \]

由于起始位置也算一次输出，故总输出高度为：

\[ H_{\text{out}} = \left\lfloor \frac{H + 2P - K}{S} \right\rfloor + 1 \]

同理，宽度方向：

\[ W_{\text{out}} = \left\lfloor \frac{W + 2P - K}{S} \right\rfloor + 1 \]

3. 图解滑动过程：以 $32 \times 32$ 输入为例

我们以具体案例可视化整个卷积过程：

输入尺寸： $32 \times 32$
卷积核： $5 \times 5$
步幅： $S = 2$
填充： $P = 1$

填充后输入变为 $34 \times 34$。卷积核从位置 $(0,0)$ 开始，覆盖区域 $[0:5, 0:5]$，下一次移动到 $(2,2)$，依此类推。

最后一次合法位置需满足：

\[ i + K \leq H + 2P \Rightarrow i \leq 34 - 5 = 29 \]

步长为 2，故 $i = 0, 2, 4, ..., 28$，共 15 个位置。

4. 不同填充模式的影响对比

填充类型	填充值 P	输出高度公式	示例：H=32, K=5, S=2
Valid	0	$\lfloor(32-5)/2\rfloor+1=14$	14×14
Same	2	$\lfloor(32+4-5)/2\rfloor+1=16$	16×16
Custom	1	$\lfloor(32+2-5)/2\rfloor+1=15$	15×15
No Pad	0	$\lfloor(32-5)/2\rfloor+1=14$	14×14
Symmetric	1	同 Custom	15×15
Replicate	1	同 Custom（数值不同）	15×15
Circular	1	边界循环扩展	15×15
Reflect	2	$\lfloor(32+4-5)/2\rfloor+1=16$	16×16
Zeros	1	标准填充	15×15
Constant	1	与 Zeros 类似	15×15

5. 实际代码验证：使用PyTorch和TensorFlow验证输出


# PyTorch 示例
import torch
import torch.nn as nn

x = torch.randn(1, 3, 32, 32)  # batch, channel, H, W
conv = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=5, stride=2, padding=1)
output = conv(x)
print(output.shape)  # torch.Size([1, 16, 15, 15])

# TensorFlow/Keras 示例
from tensorflow.keras.layers import Conv2D
from tensorflow.keras.models import Sequential

model = Sequential([
    Conv2D(filters=16, kernel_size=5, strides=2, padding='same', input_shape=(32,32,3))
])
model.add(Conv2D(filters=16, kernel_size=5, strides=2, padding=1))  # 显式 padding=1
model.build()
print(model.layers[1].output_shape)  # (None, 15, 15, 16)

6. Mermaid流程图：卷积输出尺寸决策逻辑

graph TD A[开始] --> B{输入尺寸 H×W} B --> C[确定卷积参数: K, S, P] C --> D[计算填充后尺寸: H+2P, W+2P] D --> E[计算滑动次数: floor((H+2P-K)/S)] E --> F[输出高度: 滑动次数 + 1] F --> G[同理计算宽度] G --> H[输出尺寸: H_out × W_out] H --> I[传递至下一层]

7. 常见误区与调试建议

误认为“same”填充总是保持尺寸不变：仅当步幅为1时成立；若S>1，则输出仍会缩小。
忽略向下取整操作：浮点结果必须向下取整，否则会导致索引越界。
混淆通道数与空间尺寸：输出通道由滤波器数量决定，与空间公式无关。
多维扩展理解不足：3D卷积或空洞卷积需调整公式，引入扩张率 $r$：$K_{\text{eff}} = K + (K-1)(r-1)$。
动态输入处理缺失：在可变输入场景（如目标检测）中，应使用自适应池化或FPN结构缓解尺寸错配。
硬件加速器限制：某些TPU/GPU对特定步幅或尺寸有优化要求，非对齐尺寸可能降低性能。
转置卷积反向计算易错：其输出尺寸为 $ (H-1)S - 2P + K $，与正向不同。
分组卷积不影响空间尺寸：仅改变计算方式，空间公式保持一致。
深度可分离卷积分步处理：先逐通道卷积，再逐点卷积，每步独立计算尺寸。
ONNX/TensorRT导出失败排查：常因隐式尺寸假设导致，建议显式插入Shape节点监控。

8. 高级应用场景中的尺寸管理策略

在现代架构如ResNet、EfficientNet、Vision Transformer中，尺寸控制尤为关键：

残差连接：要求跳跃路径与主路径输出尺寸完全一致，否则需使用 $1\times1$ 卷积调整。
特征金字塔网络（FPN）：通过上采样与融合实现多尺度输出，需精确规划每一层的 $H_{\text{out}}, W_{\text{out}}$。
语义分割：最终输出需恢复至原始输入尺寸，常结合转置卷积与跳跃连接。
动态网络剪枝：运行时修改卷积参数，需实时计算新尺寸并调整内存分配。

为此，推荐在模型构建初期就建立尺寸追踪表，记录每层输入输出，便于调试。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

图解入门Pytorch
2025-01-23 21:03

卿云阁的博客优点：能跑在 GPU 上，速度超级快：训练深度学习模型很耗计算力，PyTorch 能自动使用你的显卡（GPU）来加速计算。如果你有 GPU，PyTorch 可以帮你大大提高训练速度，不需要你去做特别复杂的设置。自动求导帮你...
【计算机视觉（15）】语义理解-深度学习工程_CPU_GPU_自动求导_框架
2025-12-18 20:54

roman_日积跬步-终至千里的博客图解说明： CPU 少量强大核心串行计算复杂控制流 GPU 大量简单核心并行计算矩阵运算深度学习训练大量矩阵运算 GPU加速快10-100倍说明： CPU：4-16个核心，每个核心功能强大，适合串行任务 GPU：数千个核心...
通俗理解卷积操作
2025-12-30 09:19

不惑_的博客卷积是一种广泛应用于信号处理、图像分析和深度学习的数学操作。本文从基础概念入手，首先介绍了一维卷积在...最后指出了卷积操作的常见误区和计算复杂度等注意事项，为读者全面理解卷积操作及其应用提供了清晰指导。
六万字硬核详解：卷积神经网络CNN（原理详解 + 项目实战 + 经验分享）
2022-10-12 19:59

胖墩会武术的博客 # 定义模型的各个层 self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=5, stride=1, padding=0) # 卷积层1：输入通道 3，输出通道16，卷积核大小5x5 self.pool1 = nn.MaxPool2d(kernel_size=2,...
【深度学习】计算机视觉（12）——Faster RCNN（最终篇）
2023-04-29 16:40

RK_Dangerous的博客理解1D、2D、3D卷积神经网络的概念 tf中小数转化整数的函数 np.meshgrid() python中Numpy库的ravel()函数基础知识reshape、set_shape区别 padding=“valid“和“same“的区别以及输出尺寸计算 nn.Softmax(dim) 的...
计算机视觉与深度学习MATLAB资料大全
2025-07-16 01:38

Emmamkq~~的博客它与人类视觉系统类似，但侧重于使用算法和计算方法解释视觉信息。MATLAB的计算机视觉工具箱提供了一系列函数和应用程序，用于进行图像处理、图像分析、视频和图像序列分析以及3D图像处理。这些工具箱中的函数能够...
CANN平台赋能具身智能：从模型优化到实际应用
2026-02-10 16:47

键盘敲碎了雾霭的博客 CANN（Compute Architecture for Neural Networks）是一个全栈AI计算平台，提供从底层硬件驱动到上层应用开发的全套工具链。它的核心设计理念是高性能易用性和开放生态，旨在降低AI开发门槛，提升模型部署效率。# ...
GitHub 趋势日报 (2025年06月27日)
2025-06-28 16:24

qianmoQ的博客语言分布图显示JavaScript（红色）占比最高，Go（蓝色）、Python（黄色）、TypeScript（绿色）和Java（深红）紧随其后。数据可视化呈现了当前开发者社区的技术偏好，前端工具和开源资源库持续保持热度。
Python深度学习：从零基础到项目实战
2026-01-04 13:29

莲华君的博客第2章：数学与编程基础 —— 内功心法 2.1 线性代数：向量、矩阵、张量及其运算（不仅是计算，更是空间的变换）。 2.2 微积分：导数、偏导数、链式法则与梯度（理解变化与优化的语言）。 2.3 概率论与信息论：...
Python深度学习：从入门到精通
2025-07-21 15:39

莲华君的博客第2章：数学与编程基础 —— 内功心法 2.1 线性代数：向量、矩阵、张量及其运算（不仅是计算，更是空间的变换）。 2.2 微积分：导数、偏导数、链式法则与梯度（理解变化与优化的语言）。 2.3 概率论与信息论：...
AI+视频=？探索AI原生应用在视频领域的无限可能
2025-07-23 18:34

AI原生应用开发的博客（示意图说明：展示从原始视频输入到AI处理输出的完整技术链条）帧率增强：通过插帧技术提升视频流畅度超分辨率重建：将低清视频转换为高清版本语义分割：识别视频中特定物体区域光流估计：计算相邻帧之间的像素运动...
数据科学中的Transformer模型：从NLP到CV
2025-09-05 02:33

Golang编程笔记的博客其核心的自注意力机制（Self-Attention）突破了循环神经网络（RNN）的序列处理瓶颈，在自然语言处理（NLP）领域迅速成为核心架构（BERT、GPT系列）。近年来，这一架构通过图像分块（Image Patch）、二维位置编码等...
【TensorFlow深度学习框架】从数学原理到工业级应用
2025-04-24 22:31

满怀1015的博客目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解数学基础展示前向传播公式反向传播梯度计算关键技术模块说明技术选型对比二、实战演示环境...
深度学习路线总结 (含链接)
2024-07-25 09:07

9分25秒的博客反卷积 Dilated/Atrous conv 空洞卷积/多孔卷积卷积层输出大小尺寸计算及 “SAME” 和 “VALID” && 卷积的三种模式full, same, valid以及padding的same, valid 正常卷积与空洞卷积输出特征图与感受野大小的计算 ...
基于深度学习的2D图像目标检测
2020-03-31 17:14

light169的博客一、如何计算一个图像的HOG特征维数呢？ Dalal提出的Hog特征提取的过程：把样本图像分割为若干个像素的单元（cell），把梯度方向平均划分为9个区间（bin），在每个单元里面对所有像素的梯度方向在各个方向区间进行...
Python第十六课：深度学习入门 | 神经网络解密
2025-03-10 22:54

程之编的博客源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4d5Uanv-1741618265282)(https://example.com/accuracy_curve.png)]：在评论区提交你的MNIST测试集准确率截图，准确率TOP3将获得《深度学习图解入门》电子书...
一文搞定卷积神经网络——从原理到应用
2019-01-07 19:40

痴澳超的博客可想而知，如果经过很多层卷积的话，输出尺寸会变的很小，同时图像边缘信息，会迅速流失，这对模型的性能，有着不可忽视的影响。为了减少卷积操作导致的，边缘信息丢失，我们需要进行填充（Padding），即在原图...
【一起来学AI大模型】Dropout 正则化：深度学习的抗过拟合利器
2025-07-08 14:12

运器123的博客工作原理图解训练阶段：输入层隐藏层1 隐藏层2 输出层 ● ● ● ● ● ✕ ● ● ● ● ✕ ● ● ✕ ● ● 测试阶段：输入层隐藏层1 隐藏层2 输出层 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 数学原理...
图解 SSD
2018-07-03 01:48

企业级 AI 编程指南的博客 Conv2d_13_pointwise_2_Conv2d_2_1x1_256, Conv2d_13_pointwise_2_Conv2d_2_3x3_s2_512, Conv2d_13_pointwise_3_Conv2d_2_1x1_128, Conv2d_13_pointwise_3_Conv2d_2_3x3_s2_256, Conv2d_13_pointwise_4_Conv2d_2...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日