Xavier

Soluzione al learning slowdown indotto dall’inizializzazione gaussiana dei parametri della rete neurale

Si supponga di avere un neurone $z$ , del primo hidden layer $h_{1}$ , con $n_{in}$ pesi di ingresso (si vedano i due layer verdi nella figura precedente).

Important

Si inizializza ciascun peso $w_{kj}^{h_{1}}$ cosicché:
$w_{kj}^{h_{1}} \sim N (0, \frac{1}{n _{in}}) i.i.d. j = 1, \dots, n_{in}$
La ratio è quella di comprimere la gaussiana proporzionalmente al numero di ingressi $n_{in}$ : $σ_{G}^{2} = \frac{1}{n _{in}}$

In altre parole, si comprimono le gaussiane, rendendo meno probabile che il neurone saturi. Inoltre, si continua a scegliere il bias $b$ come una variabile aleatoria gaussiana con media $0$ e deviazione standard $1$ .

Con tali scelte, l’input netto al neurone $z = \sum_{j} w_{j} x_{j} + b$ è nuovamente una variabile aleatoria gaussiana (since gaussian random variables are closed under linear transformations) con media $0$ , ma è molto più concentrata (ovvero, con varianza più piccola) rispetto al caso precedente.

Important

Un neurone con parametri inizializzati in tal modo ha molte meno probabilità di saturare e, di conseguenza, è molto meno soggetto a problemi di learning slowdown.

Note

Il bias è ancora inizializzato $b \sim N (0, 1)$ . Tale approccio è accettabile, poiché non aumenta significativamente la probabilità che i neuroni vadano in saturazione. In realtà, il modo in cui si inizializzano i bias non è particolarmente critico, a condizione che si eviti il problema della saturazione. Alcuni arrivano persino a inizializzare tutti i bias a $0$ , affidandosi poi alla discesa del gradiente per apprendere valori adeguati. Tuttavia, poiché la scelta dell’inizializzazione ha un impatto trascurabile, si inizializza $b \sim N (0, 1)$

Esempio

Si supponga, come fatto in precedenza, che $500$ degli ingressi siano zero e $500$ siano uno. Allora è facile dimostrare che $z \sim N (0, \frac{3}{2})$ (si veda la dimostrazione a seguire) .

Come si può osservare, la distribuzione dell’input netto $z$ del neurone considerato risulta molto più “piccata” rispetto a prima, al punto che persino il grafico riportato qui sotto non rende appieno la situazione, poiché si è reso necessario un riscalamento dell’asse verticale rispetto al grafico precedente.

Dimostrazione rigorosa $σ_{G}^{2} = \frac{3}{2}$

Ipotesi chiave: I pesi $w_{kj}^{h_{1}}$ e il bias $b$ sono variabili aleatorie i.i.d..

Contributo dei pesi attivi ( $x_{j} = 1$ ):

Per i 500 input attivi, la somma parziale è $\sum_{j = 1}^{500} w_{kj}^{h_{1}}$ .

Poiché i $w_{kj}^{h_{1}} \sim N (0, \frac{1}{1000})$ sono i.i.d.: $Var (j = 1 \sum 500 w_{kj}^{h_{1}}) = j = 1 \sum 500 Var (w_{kj}^{h_{1}}) = 500 \cdot (\frac{1}{1000}) = \frac{1}{2}$

Contributo del bias $b \sim N (0, 1)$ :
$Var (b) = 1$

Varianza totale di $z$ (per indipendenza tra pesi e bias):
$σ_{G}^{2} = Var (z) = Var (j = 1 \sum 500 w_{kj}^{h_{1}}) + Var (b) = \frac{1}{2} + 1 = \frac{3}{2}$

La proprietà fondamentale è l’additività delle varianze sotto indipendenza, applicata sia ai pesi che al bias.

La rete neurale, in fase di addestramento, si usa anche da destra verso sinistra in virtù della back-propagation.

È legittimo dunque riguardare quello che era il primo hidden layer come layer di “input”, e quello che era layer di input come primo hidden layer (si veda la seguente figura).

Seguendo la medesima ratio discussa precedentemente (e riguardando la rete da destra verso sinistra), si può inizializzare ciascun peso associato alle connessioni di output del neurone $z_{1}$ come segue:

w_{kj}^{h_{1}} \sim N (0, \frac{1}{n _{out}}) i.i.d. j = 1, \dots, n_{out}

dove $n_{o u t}$ è il numero di connessioni di output (vedi nota seguente) del neurone $z_{1}$ nella seguente figura.

Note

La dizione connessioni di uscita del neurone $z_{1}$ implica la “lettura” della rete neurale da sinistra verso destra, in chiave feed-forward. In maniera del tutto equivalente alla suddetta dizione, si potrebbe adottare la dizione connessioni in entrata del neurone $z_{1}$ che implica però la “lettura” della rete neurale da destra verso sinistra, in chiave back-propagation.

🔄

Nella trattazione precedente si è disaccoppiata l’analisi del problema dell’inizializzazione dei pesi nella fase di feedforward (da sinistra verso destra) da quella del medesimo problema nella fase di ** backpropagation** (da destra verso sinistra), considerando in entrambi gli scenari ** due layer**.

Tuttavia, lo stesso ragionamento si sarebbe potuto applicare mutatis mutandis considerando una rete con tre layer e focalizzandosi, ad esempio, su un neurone del layer intermedio.

Xavier (Glorot-Bengio) initialization

L’inizializzazione proposta da Xavier, Glorot e Bengio stabilisce che i pesi siano estratti da una distribuzione normale con:

w_{kj}^{ℓ} \sim N (0, σ_{Xavier}^{2}), i.i.d., σ_{Xavier}^{2} = \frac{2}{n _{in} + n _{out}}

✅ Ogni neurone del layer $ℓ$ inizializza solamente i pesi delle proprie connessioni in ingresso (cioè quelli provenienti dal layer $ℓ - 1$ ), ma la varianza usata per l’inizializzazione tiene conto anche di quante connessioni in uscita (verso il layer $ℓ + 1$ ) annoverate da tale neurone.

Nomenclatura usata:

$n_{in}$ : numero di neuroni nel layer precedente → connessioni entranti al neurone

$n_{out}$ : numero di neuroni nel layer successivo → connessioni uscenti dal neurone (dal suo punto di vista)

La varianza proposta $σ_{Xavier}^{2}$ è quindi un compromesso che tiene conto di entrambe le connessioni di ingresso e uscita di un neurone

Inoltre, i bias associati a ciascun neurone vengono inizializzati separatamente:

b_{k}^{ℓ} \sim N (0, 1)

ovvero campionando da una Gaussiana standard, indipendentemente dai pesi.

He Initialization (Kaiming Initialization)

While Xavier (or Glorot) initialization is effective for symmetric activation functions that are linear around the origin (such as the hyperbolic tangent or the identity function), it proves inadequate for non-symmetric, non-saturating functions, particularly the Rectified Linear Unit (ReLU).

The ReLU function, defined as $f (x) = max (0, x)$ , sets all negative inputs to zero. This leads to two fundamental statistical consequences that violate Xavier’s assumptions:

Non-zero mean: The output of a ReLU always has a positive mean.
Variance halving: Assuming zero-centered inputs, ReLU “turns off” roughly half the neurons, drastically reducing the signal variance as it propagates through the network.

Therefore, using Xavier with ReLU leads to a progressive decay of variance (vanishing signal), making the training of deep networks difficult.

The Solution: He Initialization

Proposed by He et al. (2015), this initialization is specifically designed to maintain the variance of activations stable across layers in networks based on ReLU (or variants like Leaky ReLU).

Weights are drawn from a normal distribution with zero mean and a variance calibrated to compensate for the “halving” effect of ReLU:

w_{kj}^{ℓ} \sim N (0, σ_{He}^{2}), i.i.d., σ_{He}^{2} = \frac{2}{n _{in}}

Rationale behind the variance $\frac{2}{n _{in}}$

$n_{in}$ : As with Xavier, the variance is inversely proportional to the number of inputs to normalize the weighted sum.

Factor of 2: This is the crucial adjustment for ReLU. Since ReLU zeroes out half the inputs (reducing variance by a factor of $1/2$ ), it is necessary to multiply the weight variance by 2 to restore the original signal level.

Mathematical Justification

The goal is to preserve activation variance from one layer to the next, i.e., ensuring that $Var (x^{ℓ}) \approx Var (x^{ℓ - 1})$ .

Let’s consider a neuron in layer $ℓ$ . Its pre-activation input is $y^{ℓ} = \sum_{j = 1}^{n_{in}} w_{j}^{ℓ} x_{j}^{ℓ - 1} + b^{ℓ}$ . We assume:

The weights $w$ and inputs $x$ are independent and identically distributed (i.i.d.) random variables.
The weights have zero mean ( $E [w] = 0$ ) and are symmetric.
The bias is initialized to zero ( $b = 0$ ).

The variance of the pre-activation output is:

Var (y^{ℓ}) = n_{in} \cdot Var (w^{ℓ} x^{ℓ - 1})

Since $w$ and $x$ are independent and $E [w] = 0$ , the variance of the product is the product of the variances:

Var (y^{ℓ}) = n_{in} \cdot Var (w^{ℓ}) \cdot E [(x^{ℓ - 1})^{2}]

Here the effect of ReLU comes into play. The input $x^{ℓ - 1}$ is the output of the previous layer’s ReLU ( $x^{ℓ - 1} = max (0, y^{ℓ - 1})$ ). If we assume that $y^{ℓ - 1}$ has a symmetric distribution around zero, ReLU suppresses half the values. Therefore, the second moment (signal power) is halved:

E [(x^{ℓ - 1})^{2}] = \frac{1}{2} Var (y^{ℓ - 1})

Substituting this relation into the variance equation:

Var (y^{ℓ}) = n_{in} \cdot Var (w^{ℓ}) \cdot (\frac{1}{2} Var (y^{ℓ - 1}))

For the signal not to explode or vanish, we want the variance to be conserved, i.e., $Var (y^{ℓ}) = Var (y^{ℓ - 1})$ . Enforcing this equality:

Var (y^{ℓ - 1}) = \frac{1}{2} n_{in} Var (w^{ℓ}) \cdot Var (y^{ℓ - 1})

1 = \frac{1}{2} n_{in} Var (w^{ℓ}) ⟹ Var (w^{ℓ}) = \frac{2}{n _{in}}

Bias Initialization

Unlike the general theoretical case, when using ReLU activations, it is standard practice to initialize biases to zero (or a very small positive constant, e.g., 0.01, to avoid dead neurons, although 0 is the most common default).

b_{k}^{ℓ} = 0

Note on Biases

A Gaussian distribution is not used for biases (e.g., $b \sim N (0, 1)$ ) as it would add unnecessary variance and risk starting ReLU neurons in an “off” state (dead ReLU) if the initial value were strongly negative.

Deep Learning

Explorer

Xavier

Soluzione al learning slowdown indotto dall’inizializzazione gaussiana dei parametri della rete neurale

Esempio

Xavier (Glorot-Bengio) initialization

He Initialization (Kaiming Initialization)

The Solution: He Initialization

Mathematical Justification

Bias Initialization

Graph View

Table of Contents

Backlinks