02 - Convolution arithmetic

Independence across axes

Convolutional layer parameters operate independently along each axis.
Formally, the choice of kernel size, stride, or padding along axis $j$ affects only the output size of axis $j$ , and does not interact with axis $i \neq = j$ .

For example, in a 2D image: modifying the stride or padding along the horizontal axis changes the width of the output, but leaves the height unchanged.

Here, the term axis follows the same convention as in NumPy (and most deep learning libraries): axis 0 corresponds to rows (height), axis 1 to columns (width), and so on.

Dimostrazione $W_{out} = W_{in} - K + 2 P + 1$

Note

Nel prosieguo, a meno di riferimenti espliciti, si assume che lo stride sia unitario: Stride $= 1$

1. Quantità in gioco

Simbolo	Significato	Nota
$K$	dimensione del local receptive field (finestra $K \times K$ nel caso $2 D$ )	iper‑parametro
$P$	numero di valori nulli (zero padding) aggiunti per lato	iper‑parametro
$W_{in}$	estensione dell’input lungo una qualunque dimensione (qui si sceglie la larghezza)	dato del layer precedente
$W_{out}$	estensione dell’output lungo la stessa dimensione	incognita da calcolare

Il ragionamento per $W$ si replica mutatis mutandis per l’altezza $H$ e per qualsiasi altra dimensione spaziale (e.g. profondità nei dati 3‑D).

2. Estensione dovuta allo zero padding

Il padding inserisce $P$ valori nulli su ciascun lato della dimensione considerata. Se si considera la larghezza (width), ad esempio, questi vengono aggiunti ai bordi sinistro e destro dell’input.

La dimensione totale su cui il local receptive field potrà scorrere, ossia la dimensione effettiva ( $W_{eff}$ ), è data dalla dimensione originale più i valori aggiunti su entrambi i lati.

$W_{eff} = W_{in} + 2 P$

In pratica, l’input viene “incorniciato” da zeri, passando da una struttura [dati] a una [zeri, dati, zeri] lungo quella dimensione.

3. Calcolo delle Posizioni del LRF (Stride = 1)

Per determinare la dimensione dell’output ( $W_{out}$ ), bisogna contare in quante posizioni distinte il local receptive field (LRF), di dimensione $K$ , può scorrere lungo la dimensione effettiva $W_{eff}$ .

Il primo LRF si allinea con l’inizio della dimensione effettiva. Il suo indice di partenza è quindi 0.
L’ultimo LRF deve essere contenuto interamente nella dimensione effettiva. Un LRF di ampiezza $K$ che parte dall’indice $x$ occupa il range di indici $[x, x + K - 1]$ . Per garantire che l’LRF non “sfori” i limiti, il suo ultimo elemento ( $x + K - 1$ ) non può superare l’ultimo indice della dimensione effettiva ( $W_{eff} - 1$ ):
$x + K - 1 \leq W_{eff} - 1 ⟹ x \leq W_{eff} - K .$
dove $x$ è la massima posizione di partenza del LRF consentita.

Important

La posizione finale valida per l’inizio del LRF è quindi $x_{max} = W_{eff} - K$ .

Conteggio Totale

L’estensione dell’output lungo la dimensione in esame ( $W_{out}$ ) è uguale al numero totale di posizioni che l’LRF può assumere. Poiché gli indici di partenza vanno da $0$ a $W_{eff} - K$ , il conteggio è: $W_{out} = (Indice Finale - Indice Iniziale) + 1$ Sostituendo i valori trovati, si ottiene: $W_{out} = (W_{eff} - K) - 0 + 1 = W_{eff} - K + 1$

4. Formula finale

Stante la formula ricavata al passo precedente:

W_{out} = W_{eff} - K + 1

poiché :

W_{eff} = W_{in} + 2 P .

allora:

W_{out} = W_{in} - K + 2 P + 1

Applicando lo stesso ragionamento alla dimensione verticale:

H_{out} = H_{in} - K + 2 P + 1

e, in un dominio 3‑D, analogamente per la profondità.

Caso generale

La relazione

\text{dimensione_out} = \text{dimensione_in} - K + 2P + 1

$\overset{e}{ˋ} v a l i d a * * p ero g nia sses p a z ia l e * * d e ll ’ in p u t . A ppl i c an d o l os t essor a g i o nam e n t o a c ia sc u na sses i o tt i e n e l a d im e n s i o n eco m pl e t a d e ll ’ o u tp u t .$

Formula generale per la dimensione dell’output (Stride $\neq = 1$ )

Quando lo stride $S$ è maggiore di 1, la finestra (LRF) salta di $S$ posizioni invece di scorrere di 1. In questo caso, il numero di posizioni valide è dato da:

W_{out} = ⌊ \frac{W _{in} - K + 2 P}{S} ⌋ + 1

Info

La formula tiene conto del fatto che, partendo da indice 0 e saltando di $S$ , l’ultima posizione utile è quella più grande per cui il filtro non esce dal dominio paddato.

Viene quindi calcolato quante volte il filtro “entra” nell’input con salto $S$ , fino all’ultima posizione valida:
$x_{max} = ⌊ \frac{W _{eff} - K}{S} ⌋$
e da qui il conteggio delle posizioni è $x_{max} + 1$ .

Applicando la stessa formula alla dimensione verticale o ad altre dimensioni spaziali:

H_{out} = ⌊ \frac{H _{in} - K + 2 P}{S} ⌋ + 1

e in un dominio 3D si procede allo stesso modo per la profondità.

Padding che preserva la dimensione ( $W_{o u t} = W_{in}$ )

Imponendo che la dimensione spaziale dell’output identica a quella dell’input ( $W_{o u t} = W_{in}$ ) nella formula (con $S = 1$ ): $W_{o u t} = W_{in} - K + 2 P + 1$ si ottiene: $W_{in} = W_{in} - K + 2 P + 1$ Semplificando si arriva alla relazione che deve soddisfare il padding: $2 P = K - 1 ⟹ P = \frac{K - 1}{2}$

Tipo di Kernel	Concetto Chiave	Formula per il Padding (P)	Esempi Pratici
Dispari	Permette un padding esatto e simmetrico, mantenendo le dimensioni dell’output identiche a quelle dell’input (con stride 1).	$P = \frac{K - 1}{2}$	- Se $K = 3 ⟹ P = 1$ - Se $K = 5 ⟹ P = 2$
Pari / Generale	Fornisce un valore di padding “ragionevole” quando un kernel pari è inevitabile. La soluzione non è perfettamente centrata.	$P = ⌈ \frac{K}{2} - 1 ⌉$ (Equivalente a $P = ⌊ \frac{K}{2} ⌋$ )	- Per $K = 4 ⟹ P = ⌊ \frac{4}{2} ⌋ = 2$ - Per $K = 6 ⟹ P = ⌊ \frac{6}{2} ⌋ = 3$

Il Caso Standard: Kernel di Dimensione Dispari

La suddetta formula evidenzia un concetto fondamentale.

Poiché il padding $P$ deve essere un numero intero, una soluzione esatta e simmetrica è possibile solo quando il numeratore $(K - 1)$ è pari, e cioè quando la dimensione del kernel $K$ è dispari. Questa è la ragione principale per cui nella pratica si usano quasi esclusivamente kernel di dimensione dispari ( $3 \times 3, 5 \times 5$ , etc.). In questo scenario, la formula è semplice e diretta.

Esempi:

Se $K = 3$ , il padding necessario è $P = (3 - 1) /2 = 1$ .

Se $K = 5$ , il padding necessario è $P = (5 - 1) /2 = 2$ .

I Kernel Pari Non Preservano Esattamente la Dimensione

Allorché si usi un kernel di dimensione pari con stride $1$ , è matematicamente impossibile preservare la dimensione esatta dell’input con un padding simmetrico. La formula con ceiling fornisce un valore di padding, ma l’output si ridurrà comunque.

Esempio con $K = 4$ :

Calcolo del Padding: $P = ⌈ \frac{4}{2} - 1 ⌉ = ⌈ 2 - 1 ⌉ = 1$ .

Dimensione di Output Risultante: Usando la formula generale $W_{o u t} = W_{in} - K + 2 P + 1$ , si ottiene: $W_{o u t} = W_{in} - 4 + 2 (1) + 1 = W_{in} - 1$

Come si vede, la dimensione di output si riduce di 1 pixel. Questo avviene perché un kernel pari non ha un pixel centrale, rendendo impossibile una sovrapposizione perfettamente simmetrica.

PyTorch mapping & quick checks

Symbol ↔ PyTorch args

Math symbol Meaning PyTorch (Conv2d/MaxPool2d/AvgPool2d)
$K$ kernel size kernel_size
$P$ (symmetric) padding per side padding (int/tuple) or 'same'¹
$S$ stride stride
$D$ dilation dilation
$K_{eff}$ effective kernel = $D (K - 1) + 1$ derived (no direct arg)

Math symbol	Meaning	PyTorch (Conv2d/MaxPool2d/AvgPool2d)
$K$	kernel size	`kernel_size`
$P$	(symmetric) padding per side	`padding` (int/tuple) or `'same'`¹
$S$	stride	`stride`
$D$	dilation	`dilation`
$K_{eff}$	effective kernel = $D (K - 1) + 1$	derived (no direct arg)

¹ Asymmetric padding in PyTorch: use torch.nn.ZeroPad2d((left, right, top, bottom)) or torch.nn.functional.pad(...) before the conv.

Output size (Conv/Pool) — PyTorch-exact

For 1D/2D/3D conv and pooling, PyTorch uses:

out = ⌊ \frac{in + 2 P - D ( K - 1 ) - 1}{S} ⌋ + 1

Equivalently, with effective kernel $K_{eff} = D (K - 1) + 1$ :

out = ⌊ \frac{in + 2 P - K _{eff}}{S} ⌋ + 1

Quick sanity checks (run in a PyTorch REPL)

import torch, torch.nn as nn
x = torch.zeros(1, 3, 32, 32)               # N=1,C=3,H=W=32
 
# 3x3, stride=1, padding=1  → out=32
m = nn.Conv2d(3, 8, kernel_size=3, stride=1, padding=1)
print(m(x).shape)  # torch.Size([1, 8, 32, 32])
 
# 5x5, stride=2, padding=2  → out=floor((32+4-5)/2)+1 = 16
m = nn.Conv2d(3, 8, kernel_size=5, stride=2, padding=2)
print(m(x).shape)  # torch.Size([1, 8, 16, 16])
 
# Dilation doubles the effective kernel: K_eff = 2*(3-1)+1 = 5
m = nn.Conv2d(3, 8, kernel_size=3, stride=1, padding=2, dilation=2)
print(m(x).shape)  # torch.Size([1, 8, 32, 32])  since (32+4-5)/1+1 = 32

`"same"` padding in PyTorch

nn.Conv{1,2,3}d(..., padding='same') picks (possibly asymmetric) padding so that
$out = ⌈ \frac{in}{S} ⌉ .$
With stride $S = 1$ and odd $K$ (any $D$ ), this reduces to symmetric padding
$P = \frac{K _{eff} - 1}{2} = \frac{D ( K - 1 )}{2} .$
With even $K_{eff}$ or $S > 1$ , PyTorch uses asymmetric padding internally to satisfy the ceil rule.

Example

x = torch.zeros(1, 3, 32, 32)
# stride=2, 'same' → out = ceil(32/2) = 16
m = nn.Conv2d(3, 16, kernel_size=3, stride=2, padding='same')
print(m(x).shape)  # torch.Size([1, 16, 16, 16])

Transposed conv (a.k.a. deconv) — PyTorch-exact

For nn.ConvTranspose{1,2,3}d:

out = (in - 1) S - 2 P + D (K - 1) + output_padding + 1

Example

x = torch.zeros(1, 8, 16, 16)
# K=3,S=2,P=1,output_padding=1 → out=(16-1)*2 - 2 + 2 + 1 + 1 = 32
m = nn.ConvTranspose2d(8, 3, kernel_size=3, stride=2, padding=1, output_padding=1)
print(m(x).shape)  # torch.Size([1, 3, 32, 32])

How dilation maps to your RF derivation

Plug into your formulas

In your receptive-field derivations, replace every kernel size $K$ with the effective kernel
$K_{eff} = D (K - 1) + 1$
for layers that use dilation $D > 1$ .
All RF recurrences and closed forms remain valid with $K \leftarrow K_{eff}$ .

Asymmetric padding (`p_l` vs `q_l`) in PyTorch

Your notes distinguish left/right padding ( $p_{l}$ , $q_{l}$ ). PyTorch’s Conv2d(..., padding=…) is symmetric; if you need asymmetric padding to match your $p_{l}, q_{l}$ exactly:

import torch.nn.functional as F
 
def conv2d_asym(x, weight, bias=None, stride=1, dilation=1, pleft=0, pright=0, ptop=0, pbot=0):
    x = F.pad(x, (pleft, pright, ptop, pbot))   # (left, right, top, bottom)
    return F.conv2d(x, weight, bias=bias, stride=stride, padding=0, dilation=dilation)

Deep Learning

Explorer

02 - Convolution arithmetic

Dimostrazione $W_{out} = W_{in} - K + 2 P + 1$

1. Quantità in gioco

2. Estensione dovuta allo zero padding

3. Calcolo delle Posizioni del LRF (Stride = 1)

Conteggio Totale

4. Formula finale

Formula generale per la dimensione dell’output (Stride $\neq = 1$ )

Padding che preserva la dimensione ( $W_{o u t} = W_{in}$ )

PyTorch mapping & quick checks

Output size (Conv/Pool) — PyTorch-exact

`"same"` padding in PyTorch

Transposed conv (a.k.a. deconv) — PyTorch-exact

How dilation maps to your RF derivation

Asymmetric padding (`p_l` vs `q_l`) in PyTorch

Graph View

Table of Contents

Deep Learning

Explorer

02 - Convolution arithmetic

Dimostrazione Wout​=Win​−K+2P+1

1. Quantità in gioco

2. Estensione dovuta allo zero padding

3. Calcolo delle Posizioni del LRF (Stride = 1)

Conteggio Totale

4. Formula finale

Formula generale per la dimensione dell’output (Stride =1)

Padding che preserva la dimensione (Wout​=Win​)

PyTorch mapping & quick checks

Output size (Conv/Pool) — PyTorch-exact

"same" padding in PyTorch

Transposed conv (a.k.a. deconv) — PyTorch-exact

How dilation maps to your RF derivation

Asymmetric padding (p_l vs q_l) in PyTorch

Graph View

Table of Contents

Dimostrazione $W_{out} = W_{in} - K + 2 P + 1$

Formula generale per la dimensione dell’output (Stride $\neq = 1$ )

Padding che preserva la dimensione ( $W_{o u t} = W_{in}$ )

`"same"` padding in PyTorch

Asymmetric padding (`p_l` vs `q_l`) in PyTorch