Weights initialization

Gaussian initialization

Nei framework di Deep Learning più diffusi (Keras, TensorFlow, PyTorch), l’inizializzazione predefinita dei parametri di una rete neurale è di tipo gaussiano.

Note

Ogni parametro è inizializzato campionando da variabili aleatorie gaussiane standard $N (0, 1)$ indipendenti, caratterizzate da media $μ_{G} = 0$ e varianza $σ_{G} = 1$ .

Avvalendosi del formalismo matematico della teoria della probabilità, si può asserire che: ${w_{i}}, {b_{j}} \sim i.i.d. N (0, 1)$

Ciò significa che ogni singolo parametro della rete (peso o bias) viene inizializzato in modo indipendente dagli altri, campionando da una distribuzione normale standard.
Una scelta semplice, ma che — come si vedrà di seguito — non è ottimale per reti neurali deep.

Perché l’inizializzazione gaussiana?

Le reti neurali prediligono operare su valori numerici compresi in un dato range. Qualora i parametri della rete siano stati inizializzati campionando da gaussiane standard $i . i . d .$ , allora:

circa il 99.7 % dei parametri ricade nel range $[- 3 σ, + 3 σ]$ che, essendo $σ = 1$ , corrisponde all’intervallo $[- 3, + 3]$ .

⚠️ Il problema dell’inizializzazione gaussiana dei parametri

Example

Struttura della rete e inizializzazione dei pesi

Si consideri un MLP con $1.000$ neuroni di input.

I pesi che connettono il layer di input al primo hidden layer sono inizializzati mediante gaussiane standard $N (0, 1)$ .

🎯 Focus: pesi verso un singolo neurone

Ci si focalizza solo sui pesi che collegano i neuroni di input al primo neurone del layer hidden.

Il resto della rete viene ignorato per semplicità dell’analisi.

🔧 Configurazione dell’input di training

Si assume un vettore di input $x$ in cui ogni neurone di input $x_{j}$ è:

Attivo con probabilità $0.5$ ⇒ $x_{j} = 1$

Inattivo con probabilità $0.5$ ⇒ $x_{j} = 0$

⌨ Calcolo input netto $z$ del neurone del hidden layer

Si consideri l’input netto al singolo neurone del layer hidden che si sta considerando:
$z = j = 1 \sum 1000 w_{j} x_{j} + b$

500 termini in tale sommatoria si annullano, poiché il corrispondente input $x_{j}$ è zero. Pertanto, $z$ è una somma di $501$ variabili aleatorie $N (0, 1) i . i . d .$ :

500 termini corrispondenti ai pesi $w_{j}$ .

1 termine aggiuntivo dovuto al bias $b$ .

Essendo $z$ somma di variabili aleatorie gaussiane indipendenti è anch’essa gaussiana:
$z \sim N (0, 501) \Rightarrow σ_{z} = 501 \approx 22.4$

⚠️ Ma c'è un problema...

Dal grafico si osserva che $∣ z ∣$ ha un’alta probabilità di essere molto grande (z ≫ 1 o z ≪ -1).

Se ciò accade, l’output σ(z) del neurone nascosto si avvicina a $1$ o $0$ → saturazione del neurone.

In stato di saturazione, piccole variazioni dei pesi $w_{j}$ producono cambiamenti minimi nell’attivazione $σ (z)$ .

Questi cambiamenti minimi si propagano debolmente al resto della rete, con un effetto trascurabile sulla funzione di costo.

Conseguenza: apprendimento estremamente lento durante l’aggiornamento dei pesi con discesa del gradiente (ciò è stato discusso quando si sono usate le equazioni della back-propagation per mostrare che i pesi in input a neuroni saturati apprendono lentamente).

📌 Osservazione

Questo comportamento è analogo al problema dei neuroni di output saturati discusso in precedenza.

In quel contesto, la saturazione degli output veniva mitigata con una scelta intelligente della funzione di costo (e.g. cross-entropy).
Tuttavia, tale soluzione non risolve la saturazione nei neuroni hidden, poiché:

La causa è legata all’inizializzazione dei pesi e al forward di $z$ con alta varianza.

Le modifiche alla funzione di costo agiscono a valle, senza influenzare direttamente $z$ negli strati hidden.

In altre parole: l’ottimizzazione della funzione di costo “maschera” il problema negli output, ma non lo elimina alla radice negli hidden layer.

💡 Estensione agli Strati Nascosti Successivi

Lo stesso problema non si limita al primo strato nascosto:

Se i pesi negli strati nascosti successivi vengono inizializzati con gaussiane standard $N (0, 1)$ ,

Le attivazioni $z$ in questi strati tenderanno anch’esse a saturare vicino a $0$ o $1$ .

Conseguenza: Apprendimento estremamente lento in tutta la rete, non solo nello strato iniziale.

Il cuore del problema rimane l’inizializzazione: il feed forward di segnali con varianza non controllata crea un “effetto domino” di saturazione negli strati profondi.

Deep Learning

Explorer

Weights initialization

Gaussian initialization

Perché l’inizializzazione gaussiana?

⚠️ Il problema dell’inizializzazione gaussiana dei parametri

Struttura della rete e inizializzazione dei pesi

🎯 Focus: pesi verso un singolo neurone

🔧 Configurazione dell’input di training

⌨ Calcolo input netto $z$ del neurone del hidden layer

Graph View

Table of Contents

Backlinks

Deep Learning

Explorer

Weights initialization

Gaussian initialization

Perché l’inizializzazione gaussiana?

⚠️ Il problema dell’inizializzazione gaussiana dei parametri

Struttura della rete e inizializzazione dei pesi

🎯 Focus: pesi verso un singolo neurone

🔧 Configurazione dell’input di training

⌨ Calcolo input netto z del neurone del hidden layer

Graph View

Table of Contents

Backlinks

⌨ Calcolo input netto $z$ del neurone del hidden layer