07 - Convolutional Layer

Equazione dell’attivazione convoluzionale (2D, padding simmetrico)

In presenza di un padding simmetrico di ampiezza $P$ (ovvero $P$ elementi aggiunti a ciascun lato del dominio: sopra, sotto, a sinistra e a destra nel caso $2 D$ ), la formula generale che calcola l’attivazione del neurone in posizione $(x, y)$ del layer $ℓ + 1$ è:

a_{x, y}^{ℓ + 1} = f (b^{ℓ} + i = 0 \sum K - 1 j = 0 \sum K - 1 w_{i, j}^{ℓ} \cdot a_{x + j - P, y + i - P}^{ℓ})

dove:

$a_{x + j - P, y + i - P}^{ℓ}$ è l’attivazione del layer precedente $ℓ$ nella posizione corrispondente al punto $(x, y)$ del local receptive field (l’asse y punta verso il basso mentre l’asse x punta verso destra),
$w_{i, j}^{ℓ}$ è il valore del peso nella posizione $(i, j)$ all’interno della griglia $K \times K$ (con $i$ indice di riga e $j$ indice di colonna),
$b^{ℓ}$ è un bias condiviso da tutti i neuroni del layer, analogamente ai pesi associati al lrf,
$f$ è la funzione di attivazione (es. ReLU, sigmoid, tanh…).

Note

$P$ tiene conto del fatto che l’input originale è stato esteso simmetricamente con valori nulli, in modo che anche i neuroni situati ai bordi del dominio abbiano un LRF completo.

In tale formula si sta assumendo uno stride pari a 1, cioè il kernel si sposta di una sola posizione per volta, sia in orizzontale che in verticale.

🔎 Come si perviene a questa formula

Il neurone in $(x, y)$ del layer $ℓ + 1$ osserva una finestra quadrata $K \times K$ centrata in $(x, y)$ sull’input paddato.

Le attivazioni del layer precedente, all’interno di quella finestra, sono moltiplicate per pesi condivisi e sommati.

Si aggiunge un bias costante.

Il tutto viene trasformato da una funzione $f$ (es. ReLU, sigmoid, tanh…).

Formula compatta layer convoluzionale

La formula compatta del layer convoluzionale è:

A^{ℓ + 1} = f (b^{ℓ} + W^{ℓ} * A^{ℓ})

La suddetta formula descrive il calcolo dell’intero layer convoluzionale in forma matriciale e compatta.

Significato dei termini

$A^{ℓ}$ è la matrice delle attivazioni (o feature map) del layer $ℓ$ , di dimensione $H_{in} \times W_{in}$ .

$W^{ℓ}$ è la matrice dei pesi condivisi, detta anche kernel convoluzionale, di dimensione $K \times K$ (o più in generale $K_{1} \times \dots \times K_{D}$ ).

$b^{ℓ}$ è un termine di bias scalare, condiviso da tutti i neuroni del layer.

$*$ rappresenta l’operazione di convoluzione (o correlazione) tra il kernel $W^{ℓ}$ e le attivazioni $A^{ℓ}$ .

$A^{ℓ + 1}$ è la matrice di output del layer $ℓ + 1$ , cioè la nuova feature map.

Dal punto di vista matriciale, la convoluzione restituisce una matrice intermedia:
$C^{ℓ} = W^{ℓ} * A^{ℓ}$
A ciascun elemento di $C^{ℓ}$ viene sommato il bias scalare $b^{ℓ}$ , ottenendo:
$C^{ℓ} + b^{ℓ}$
La funzione di attivazione $f$ (scalare) viene quindi applicata elemento per elemento:
$A^{ℓ + 1} = f (C^{ℓ} + b^{ℓ}) ossia [A^{ℓ + 1}]_{x, y} = f ([W^{ℓ} * A^{ℓ}]_{x, y} + b^{ℓ})$
📌 Il risultato finale è la matrice delle attivazioni del layer $ℓ + 1$ .

Calcolo di un Singolo Elemento di Output $(x, y)$

Per comprendere come viene generata la mappa di attivazione $A^{ℓ + 1}$ , si analizzi il calcolo di un singolo elemento in posizione $(x, y)$ .

Tale valore si ottiene dall’applicazione a cascata di una funzione di attivazione scalare non lineare $f$ (e.g. $ReLU$ , $sigmoid$ , $tanh$ ) al risultato della convoluzione locale tra il kernel $W^{ℓ}$ e l’input $A^{ℓ}$ :

[A^{ℓ + 1}]_{x, y} = f (b^{ℓ} + [W^{ℓ} * A^{ℓ}]_{x, y})

dove:

$P$ è il padding,
$[W^{ℓ} * A^{ℓ}]_{x, y}$ rappresenta la somma pesata delle attivazioni del local receptive field centrato in $(x, y)$ ,
$b^{ℓ}$ è il bias condiviso da tutti i neuroni del layer

📌 Campo recettivo e attivazione

Sebbene la formula calcoli un singolo valore $[A^{ℓ + 1}]_{x, y}$ , esso dipende da un’intera regione del layer precedente (il campo recettivo).
La convoluzione è un’operazione locale, mentre la funzione di attivazione $f$ è puntuale (agisce solo sul valore convoluto).

📦 Caso 2D

Nel caso bidimensionale con kernel di dimensione $K \times K$ e padding simmetrico $P$ , la convoluzione è definita da:
$[W^{ℓ} * A^{ℓ}]_{x, y} = i = 0 \sum K - 1 j = 0 \sum K - 1 w_{i, j}^{ℓ} \cdot a_{x + j - P, y + i - P}^{ℓ}$
Questa formula calcola l’output nella posizione $(x, y)$ come somma pesata delle attivazioni del local receptive field centrato in quella posizione.

Deep Learning

Explorer

07 - Convolutional Layer

Equazione dell’attivazione convoluzionale (2D, padding simmetrico)

Formula compatta layer convoluzionale

Calcolo di un Singolo Elemento di Output $(x, y)$

Graph View

Table of Contents

Deep Learning

Explorer

07 - Convolutional Layer

Equazione dell’attivazione convoluzionale (2D, padding simmetrico)

Formula compatta layer convoluzionale

Calcolo di un Singolo Elemento di Output (x,y)

Graph View

Table of Contents

Calcolo di un Singolo Elemento di Output $(x, y)$