Neuron Saturation

Una delle cause del vanishing gradient è la saturazione del neurone.

δ^{ℓ} = ((W^{(ℓ + 1)})^{T} δ^{(ℓ + 1)}) ⊙ f^{'} (z^{ℓ}) (BP2)

\frac{\partial C}{\partial w _{jk}^{ℓ}} = a_{k}^{(ℓ - 1)} δ_{j}^{ℓ} (BP3)

\frac{\partial C}{\partial b _{j}^{ℓ}} = δ_{j}^{ℓ} (BP4)

Infatti, stante la $BP2$ , qualora l’input netto del neurone $z$ sia tale da saturare il neurone, ossia cada nelle regioni estreme della funzione di attivazione dove $f^{'} (z) \approx 0$ , la componente del gradiente relativa ai parametri di quel neurone si pressoché annulla ( $BP3, BP4$ ), contribuendo al fenomeno del vanishing gradient.

Le funzioni di attivazione limitate, come la sigmoide $σ (z)$ e la tangente iperbolica $tanh (z)$ ,
soffrono del problema della saturazione dei neuroni allorché l’input $z$ cada nelle regioni dei rispettivi domini dove $f^{'} (z) \approx 0$ .

La peculiarità della tangente iperbolica è di esibire una derivata più steep rispetto a quella della sigmoide, il che si traduce in una maggiore sensibilità ai cambiamenti dell’input nella regione centrale.
Tuttavia, essendo comunque una funzione limitata, anche la $tanh (z)$ soffre di saturazione
quando $z$ assume valori molto positivi o molto negativi, portando nuovamente a $f^{'} (z) \approx 0$
e, di conseguenza, al rischio di vanishing gradient.

Deep Learning

Explorer

Neuron Saturation

Graph View