2D convolution

Input Multi-Canale

Sia l’input al layer convoluzionale:

A^{in} \in R^{C_{in} \times H \times W}

$C_{in}$ : numero di canali di input (e.g. 3 per immagini RGB)
$H, W$ : dimensioni spaziali

Per ogni canale di uscita $j \in {0, \dots, C_{out} - 1}$ , la rete apprende un filtro convoluzionale:

W_{j} = {W_{jk}}_{k = 0}^{C_{in} - 1}

dove ogni $W_{jk} \in R^{K \times K}$ è un kernel 2D dedicato al canale di input $k$ .
Questi kernel vengono impilati per formare un blocco 3D di pesi.

L’attivazione del canale di uscita $j$ è calcolata come:

A_{j}^{out} = f (b_{j} + k = 0 \sum C_{in} - 1 W_{jk} * A_{k}^{in})

dove:

$W_{jk}$ : kernel 2D associato alla coppia formata dal canale di output $j$ -esimo e dal canale di input $k$ -esimo
$A_{k}^{in}$ : k-esimo canale dell’input
$*$ : operazione di convoluzione 2D
$b_{j}$ : bias associato al canale di uscita $j$
$f$ : funzione di attivazione (es. ReLU)

Important

Per ogni $k$ :

il prodotto $W_{jk} * A_{k}^{in}$ restituisce una matrice 2D (una feature map parziale);

variando $k$ , si ottengono $C_{in}$ matrici 2D;

queste matrici vengono sommate tra loro elemento per elemento;

infine si aggiunge il bias $b_{j}$ (broadcasted su tutta la matrice) e si applica la funzione di attivazione $f$ .

📌 Il risultato finale è quindi una matrice 2D: la feature map completa corrispondente al canale di uscita $j$ .

Ripetendo il processo per tutti i $j \in {0, \dots, C_{out} - 1}$ si ottiene:

A^{out} \in R^{C_{out} \times H^{'} \times W^{'}}

📌 Nota

Ogni filtro convoluzionale $W_{j}$ è una matrice tridimensionale di pesi,
composta da $C_{in}$ kernel 2D impilati, e produce una sola feature map di uscita.

In totale, un layer convoluzionale apprende $C_{out}$ filtri indipendenti,
ciascuno responsabile di una mappa distinta nell’output.

Important

Le CNN possono essere riguardate come estrattori generali di features da immagini/segnali: esse apprendono milioni di features extractors per ogni layer, ciascuno responsabile della rilevazione di specifici pattern nei dati.

Nella figura riportata, si osserva che le CNN esibiscono milioni di parametri anche in un singolo layer convoluzionale. Analogamente, anche gli MLP possono contenere un numero molto elevato di parametri, nell’ordine di $1 0^{6}$ , $1 0^{9}$ o persino $1 0^{12}$ . Sebbene anche nelle CNN si raggiungano valori simili, i loro parametri sono impiegati per apprendere features differenti.

In questo senso, le CNN sono vere e proprie feature representation learners, il che le distingue profondamente dagli MLP, i quali non possiedono un meccanismo esplicito per l’estrazione gerarchica delle caratteristiche.

Avendo espresso la convoluzione in forma compatta:

A_{j}^{out} = f (b_{j} + k = 0 \sum C_{in} - 1 W_{jk} * A_{k}^{in})

tale formula si può declinare elemento per elemento, tenendo conto che:

l’asse $x$ cresce verso destra,
l’asse $y$ cresce verso il basso,
l’indice $ℓ$ corrisponde allo spostamento orizzontale ( $x$ ),
l’indice $i$ corrisponde allo spostamento verticale ( $y$ ).

Dunque, fissata la posizione $(x, y)$ , si ottiene la forma locale:

A_{j}^{out} [x, y] = f (b_{j} + k = 0 \sum C_{in} - 1 i = 0 \sum K - 1 ℓ = 0 \sum K - 1 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P])

Dettaglio: risultato delle convoluzioni 2D per canale

Per ciascun canale di input $k$ , l’operazione
$(W_{jk} * A_{k}^{in}) [x, y] = i = 0 \sum K - 1 ℓ = 0 \sum K - 1 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P]$
restituisce uno scalare: il valore in $(x, y)$ ottenuto dalla convoluzione 2D del kernel $W_{jk}$ sul canale $k$ .

$ℓ$ è lo spostamento orizzontale (asse $x$ ), $i$ è lo spostamento verticale (asse $y$ ).

Il padding $P$ garantisce che anche ai bordi siano disponibili tutte le $K^{2}$ posizioni del kernel.

Ripetendo questo calcolo per tutti i $k = 0, \dots, C_{in} - 1$ , si ottengono $C_{in}$ scalari.

Tali scalari vengono poi sommati elemento per elemento:
$S [x, y] = k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [x, y],$
e infine si applica bias e attivazione:
$A_{j}^{out} [x, y] = f (b_{j} + S [x, y]) .$
📊 Riepilogo passo‑passo per posizione $(x, y)$

Passo Descrizione
1 Per ogni $k$ : calcola $(W_{jk} * A_{k}^{in}) [x, y]$ sommando i prodotti su tutti gli offset $(i, ℓ)$ .
2 Somma i risultati: $S [x, y] = \sum_{k} (W_{jk} * A_{k}^{in}) [x, y]$ .
3 Aggiungi il bias: $S [x, y] + b_{j}$ .
4 Applica la funzione di attivazione: $A_{j}^{out} [x, y] = f (S [x, y] + b_{j})$ .

Passo	Descrizione
1	Per ogni $k$ : calcola $(W_{jk} * A_{k}^{in}) [x, y]$ sommando i prodotti su tutti gli offset $(i, ℓ)$ .
2	Somma i risultati: $S [x, y] = \sum_{k} (W_{jk} * A_{k}^{in}) [x, y]$ .
3	Aggiungi il bias: $S [x, y] + b_{j}$ .
4	Applica la funzione di attivazione: $A_{j}^{out} [x, y] = f (S [x, y] + b_{j})$ .

Esempio

Per ogni canale di uscita $j = 0, \dots, 127$ e per ogni posizione $(x, y) \in {0..4}^{2}$ , si calcola:

A_{j}^{out} [x, y] = f (b_{j} + k = 0 \sum 2 i = 0 \sum 2 ℓ = 0 \sum 2 W_{jk} [i, ℓ] \cdot A_{k}^{in} [x + ℓ - P, y + i - P])

la sommatoria su $k$ itera su ciascun canale di input $k$
la tripla sommatoria $\sum_{k, i, ℓ}$ accumula i contributi dei $3$ kernel $2 D$
il risultato in $(x, y)$ è un singolo valore che, a valle dell’applicazione di $f$ , diventa l’entry $[x, y]$ della feature map $j$

	Dimensioni
Input dims	$7 \times 7 \times 3$	immagine RGB
Filtro per canale out $j$	$3 \times 3 \times 3$	$3$ kernel $2 D$ da $3 \times 3$
Patch spaziale valida	$5 \times 5$	$(7 - 3) + 1 = 5$
# output channels	$128$	quante feature map vogliamo
Output dims	$5 \times 5 \times 128$	$128$ patch $5 \times 5$ impilate
Parametri per filtro	$3 \times 3 \times 3 = 27$	pesi di un singolo filtro
Parametri totali layer	$27 \times 128 = 3, 456$	pesi del layer

Quando si applica una convoluzione 2D a un input multicanale (e.g. un’immagine RGB), il processo può essere visualizzato in termini di blocchi 2D impilati per ciascun canale di input.

Fissando un canale di output $j$ , la rete utilizza un filtro convoluzionale dedicato per generare la feature map corrispondente.
Tale filtro è composto da uno stack di $C_{in}$ kernel 2D, uno per ogni canale dell’input.
Per ogni posizione spaziale $(x, y)$ , il filtro viene centrato su quella posizione:
- si calcola la convoluzione 2D tra ciascun kernel e il rispettivo canale di input
- si ottengono $C_{in}$ mappe parziali (scalari)
- questi scalari vengono sommati, poi si aggiunge un bias $b_{j}$ e si applica una funzione di attivazione $f$

Formula:

A_{j}^{out} [x, y] = f (b_{j} + k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [x, y])

dove ogni $A_{k}^{in}$ è un’immagine 2D, ogni $W_{jk}$ è un kernel 2D.

Visualization

No Padding

$[1, 1, 1, 1]$ Padding

Numbers of parameters involved

AlexNet and Gabor Filters

Nel $2012$ il gruppo di Hinton, che vinse la ImageNet Challenge con la rete AlexNet, si avvalse di filtri convoluzionali di dimensioni $11 \times 11 \times 3$ : tali filtri, associati al primo layer (deputato a processare i dati di input ossia le immagini raw), erano $96$ e ciascuno è composto da $3$ kernel $11 \times 11$ .

Info

Laddove i kernel $3 \times 3$ non possono essere visualizzati, sono solo un insieme di numeri, i kernel $11 \times 11$ possono essere ispezionati visivamente.

Note

AlexNet è stata la prima istanza di successo di una rete CNN (a rigore anche la prima CNN proposta da Lecun fu un successo ma su scala piu piccola: il riconoscimento di caratteri manoscritti) su larga scala (ImageNet-scale: milioni di immagini e migliaia di categorie).

Nella seguente figura, a sinistra sono riportati i primi $40$ su $96$ filtri $11 \times 11 \times 3$ appresi automaticamente dal primo layer convoluzionale di AlexNet. A destra sono riportati i kernel convoluzionali di Gabor usati nell’Image Analysis per estrarre features.

Gabor filters vs AlexNet

È strabiliante notare come i filtri appresi automaticamente dal primo layer convoluzionale di AlexNet risultino sorprendentemente simili ai kernel convoluzionali di Gabor. La somiglianza tra gli estrattori di features appresi automaticamente e quelli progettati manualmente dall’uomo, come i filtri di Gabor, è sorprendente.

Motivazione intuitiva I filtri di Gabor sono estrattori di bordi di basso livello. Il primo layer di AlexNet è essenzialmente è un estrattore di features di bordi

Ciò accade nella retina umana: la prima cosa che avviene nella nostra retina è la sensibilità ai bordi.

CNN and Visual Cortex

Sussiste un chiaro parallelismo: la percezione visiva umana, l’estrazione matematica delle caratteristiche (come i filtri di Gabor) e l’estrazione automatica tramite CNN convergono tutte verso lo stesso principio fondamentale: il primo passo consiste nell’estrarre i bordi dall’immagine. Da questi bordi si costruiscono livelli superiori di astrazione.

Si parla, infatti, di una catena di livelli di astrazione.

Important

Le CNN sono un tool di apprendimento di rappresentazioni gerarchiche per le immagini.

Deep Learning: Zero to Hero

Explorer

Input Multi-Canale

📊 Riepilogo passo‑passo per posizione $(x, y)$

Esempio

Visualization

Numbers of parameters involved

AlexNet and Gabor Filters

Graph View

Table of Contents

Deep Learning: Zero to Hero

Explorer

2D convolution

Input Multi-Canale

📊 Riepilogo passo‑passo per posizione (x,y)

Esempio

Visualization

Numbers of parameters involved

AlexNet and Gabor Filters

Graph View

Table of Contents

📊 Riepilogo passo‑passo per posizione $(x, y)$