03 - Conv2D (2)

Avendo espresso la convoluzione in forma compatta:

A_{j}^{out} = f (b_{j} + k = 0 \sum C_{in} - 1 W_{jk} * A_{k}^{in})

tale formula si può declinare elemento per elemento, tenendo conto che:

l’asse $x$ cresce verso destra,
l’asse $y$ cresce verso il basso,
l’indice $ℓ$ corrisponde allo spostamento orizzontale ( $x$ ),
l’indice $i$ corrisponde allo spostamento verticale ( $y$ ).

Dunque, fissata la posizione $(x, y)$ , si ottiene la forma locale:

A_{j}^{out} [x, y] = f (b_{j} + k = 0 \sum C_{in} - 1 i = 0 \sum K - 1 ℓ = 0 \sum K - 1 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P])

Dettaglio: risultato delle convoluzioni 2D per canale

Per ciascun canale di input $k$ , l’operazione
$(W_{jk} * A_{k}^{in}) [x, y] = i = 0 \sum K - 1 ℓ = 0 \sum K - 1 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P]$
restituisce uno scalare: il valore in $(x, y)$ ottenuto dalla convoluzione 2D del kernel $W_{jk}$ sul canale $k$ .

$ℓ$ è lo spostamento orizzontale (asse $x$ ), $i$ è lo spostamento verticale (asse $y$ ).

Il padding $P$ garantisce che anche ai bordi siano disponibili tutte le $K^{2}$ posizioni del kernel.

Ripetendo questo calcolo per tutti i $k = 0, \dots, C_{in} - 1$ , si ottengono $C_{in}$ scalari.

Tali scalari vengono poi sommati elemento per elemento:
$S [x, y] = k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [x, y],$
e infine si applica bias e attivazione:
$A_{j}^{out} [x, y] = f (b_{j} + S [x, y]) .$
📊 Riepilogo passo‑passo per posizione $(x, y)$

Passo Descrizione
1 Per ogni $k$ : calcola $(W_{jk} * A_{k}^{in}) [x, y]$ sommando i prodotti su tutti gli offset $(i, ℓ)$ .
2 Somma i risultati: $S [x, y] = \sum_{k} (W_{jk} * A_{k}^{in}) [x, y]$ .
3 Aggiungi il bias: $S [x, y] + b_{j}$ .
4 Applica la funzione di attivazione: $A_{j}^{out} [x, y] = f (S [x, y] + b_{j})$ .

Esempio

Per ogni canale di uscita $j = 0, \dots, 127$ e per ogni posizione $(x, y) \in {0..4}^{2}$ , si calcola:

A_{j}^{out} [x, y] = f (b_{j} + k = 0 \sum 2 i = 0 \sum 2 ℓ = 0 \sum 2 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P])

la sommatoria su $k$ itera su ciascun canale di input $k$
la tripla sommatoria $\sum_{k, i, ℓ}$ accumula i contributi dei $3$ kernel $2 D$
il risultato in $(x, y)$ è un singolo valore che, a valle dell’applicazione di $f$ , diventa l’entry $[x, y]$ della feature map $j$

	Dimensioni
Input dims	$7 \times 7 \times 3$	immagine RGB
Filtro per canale out $j$	$3 \times 3 \times 3$	$3$ kernel $2 D$ da $3 \times 3$
Patch spaziale valida	$5 \times 5$	$(7 - 3) + 1 = 5$
# output channels	$128$	quante feature map vogliamo
Output dims	$5 \times 5 \times 128$	$128$ patch $5 \times 5$ impilate
Parametri per filtro	$3 \times 3 \times 3 = 27$	pesi di un singolo filtro
Parametri totali layer	$27 \times 128 = 3, 456$	pesi del layer