Deep Learning

❯

❯

❯

CNNs building blocks

❯

01 Parameters Sharing

01 - Parameters Sharing

Feb 21, 20263 min read

Nell’esempio sugli LRF, l’ insieme dei $25$ valori (pesi) associato alle $25$ connessioni :

{w_{i, j}^{ℓ} i, j = 0, \dots, 4}

(ovvero una griglia $5 \times 5$ ) viene riutilizzato invariato ogni volta che il local receptive field si sposta su una nuova posizione del dominio del layer (ciò ovviamente sussiste mutatis mutandis qualsiasi sia la dimensionalità $D$ dei dati).

Stante la condivisione dei parametri (parameters sharing), ogni neurone nel layer $ℓ + 1$ riceve in ingresso un local receptive field (LRF) dal layer precedente $ℓ$ e applica sempre gli stessi 25 pesi (nella figura, $5 \times 5$ ) per calcolare la propria attivazione.

Dunque, l’operazione svolta da ciascun neurone del layer $ℓ + 1$ è una combinazione pesata delle attivazioni locali nel layer $ℓ$ , a cui si somma un termine di bias, e il tutto viene passato a una funzione di attivazione $f$ .

Relazione con la convoluzione classica

L’operazione appena descritta è, a tutti gli effetti, una correlazione discreta tra i pesi e l’input locale:

nella definizione matematica classica di convoluzione, i pesi sarebbero riflessi (flipped) rispetto al centro: $w_{i, j} \to w_{K - 1 - i, K - 1 - j}$ ;
nella correlazione, invece, non c’è riflessione: i pesi si applicano direttamente come sono.

Warning

💡 **Nelle CNN, si parla comunemente di “convoluzione” anche se **formalmente è una correlazione.

ℹ️ Convoluzione o Correlazione?

Sebbene l’operazione implementata nei layer convoluzionali sia formalmente una correlazione (anziché una convoluzione matematica con flipping dei pesi), ciò non rappresenta un limite pratico.

Durante l’addestramento, la rete è infatti in grado di apprendere automaticamente la disposizione dei pesi più efficace, incluso il flipping, se necessario.
Di conseguenza, l’orientamento dei pesi non deve essere imposto: emerge dai dati.

Ciò che conta è la capacità della rete di apprendere relazioni locali e di rilevarle in qualunque posizione del dominio.

📌 Recap

L’attivazione di un neurone convoluzionale è calcolata come una correlazione pesata su un blocco locale dell’input, usando gli stessi pesi condivisi in ogni posizione.
Questa operazione è del tutto analoga a una convoluzione discreta, a meno di una riflessione che non ha conseguenze pratiche nel contesto dell’apprendimento automatico.

📉 Riduzione del numero di parametri

In un layer fully connected classico (MLP), ogni neurone è connesso a tutti quelli del layer precedente.
Il numero di parametri sarebbe quindi:
$n^{ℓ} \times n^{ℓ + 1}$
Con un layer convoluzionale, invece, ogni neurone vede solo un local receptive field di dimensione $K^{D}$ ,
e tutti i neuroni condividono lo stesso set di pesi. Il numero di parametri si riduce quindi a:
$K^{D} + 1$
(con l’1 che rappresenta il bias).
📌 Questo rende il paradigma convoluzionale molto più efficiente.

🔁 Equivarianza a traslazione

La condivisione dei pesi introduce una proprietà chiamata equivarianza a traslazione.

📌 Se uno stesso pattern locale è presente in posizioni diverse dell’input,
allora il kernel convoluzionale risponde allo stesso modo, generando la stessa attivazione.

In altre parole: il kernel riconosce quel pattern ovunque lo incontri nel dominio di input,
perché applica gli stessi pesi per ogni local receptive field.

‹Previous01 - Local Receptive Field (LRF)

03 - Receptive Fields in DepthNext›

Graph View

Backlinks

05 - Feature Map
MLPs do not scale well

Created with Quartz v4.5.2 © 2026

GitHub

Scroll to top ↑
Random Page 🎲