02 - Conv2D (1)

Input Multi-Canale

Sia l’input al layer convoluzionale:

A^{in} \in R^{C_{in} \times H \times W}

$C_{in}$ : numero di canali di input (e.g. 3 per immagini RGB)
$H, W$ : dimensioni spaziali

Per ogni canale di uscita $j \in {0, \dots, C_{out} - 1}$ , la rete apprende un filtro convoluzionale:

W_{j} = {W_{jk}}_{k = 0}^{C_{in} - 1}

dove ogni $W_{jk} \in R^{K \times K}$ è un kernel 2D dedicato al canale di input $k$ .
Questi kernel vengono impilati per formare un blocco 3D di pesi.

L’attivazione del canale di uscita $j$ è calcolata come:

A_{j}^{out} = f (b_{j} + k = 0 \sum C_{in} - 1 W_{jk} * A_{k}^{in})

dove:

$W_{jk}$ : kernel 2D associato alla coppia formata dal canale di output $j$ -esimo e dal canale di input $k$ -esimo
$A_{k}^{in}$ : k-esimo canale dell’input
$*$ : operazione di convoluzione 2D
$b_{j}$ : bias associato al canale di uscita $j$
$f$ : funzione di attivazione (es. ReLU)

Important

Per ogni $k$ :

il prodotto $W_{jk} * A_{k}^{in}$ restituisce una matrice 2D (una feature map parziale);

variando $k$ , si ottengono $C_{in}$ matrici 2D;

queste matrici vengono sommate tra loro elemento per elemento;

infine si aggiunge il bias $b_{j}$ (broadcasted su tutta la matrice) e si applica la funzione di attivazione $f$ .

📌 Il risultato finale è quindi una matrice 2D: la feature map completa corrispondente al canale di uscita $j$ .

Ripetendo il processo per tutti i $j \in {0, \dots, C_{out} - 1}$ si ottiene:

A^{out} \in R^{C_{out} \times H^{'} \times W^{'}}

📌 Nota

Ogni filtro convoluzionale $W_{j}$ è una matrice tridimensionale di pesi,
composta da $C_{in}$ kernel 2D impilati, e produce una sola feature map di uscita.

In totale, un layer convoluzionale apprende $C_{out}$ filtri indipendenti,
ciascuno responsabile di una mappa distinta nell’output.

Important

Le CNN possono essere riguardate come estrattori generali di features da immagini/segnali: esse apprendono milioni di features extractors per ogni layer, ciascuno responsabile della rilevazione di specifici pattern nei dati.

Nella figura riportata, si osserva che le CNN esibiscono milioni di parametri anche in un singolo layer convoluzionale. Analogamente, anche gli MLP possono contenere un numero molto elevato di parametri, nell’ordine di $1 0^{6}$ , $1 0^{9}$ o persino $1 0^{12}$ . Sebbene anche nelle CNN si raggiungano valori simili, i loro parametri sono impiegati per apprendere features differenti.

In questo senso, le CNN sono vere e proprie feature representation learners, il che le distingue profondamente dagli MLP, i quali non possiedono un meccanismo esplicito per l’estrazione gerarchica delle caratteristiche.

Deep Learning

Explorer

02 - Conv2D (1)

Input Multi-Canale

Graph View