Forget Gate

Single instance

The Forget Gate is a linear layer which has two inputs:

$x_{t} \in R^{n_{inputs} \times 1}$
$h_{t - 1} \in R^{n_{neurons} \times 1}$ that is the previous hidden state vector

This linear layer has a sigmoid activation function and a bias $b_{f}$ (which is a vector).

Sigmoide come funzione vettoriale

La funzione $σ$ è una funzione vettoriale a valori vettoriali, applicata element-wise:
$σ : R^{h} \to R^{h}$
dove:
$W_{f} (x_{t}, h_{t - 1})^{⊤} + b_{f} \in R^{h}$
è un vettore (uno per ciascuna unità della LSTM), e la sigmoide $σ$ viene applicata a ciascun elemento di questo vettore, restituendo un nuovo vettore $f_{t} \in [0, 1]^{h}$

In questo contesto la sigmoide applicata all’input dato dalla trasformazione affine ( $W_{f} (x_{t}, h_{t - 1})^{T} + b_{f}$ ) (dove $x_{t}$ è il vettore di dati di input corrente e $h_{t - 1}$ è il vettore dello stato nascosto all’iterazione precedente e contenente l’informazioen degli step precedenti) , fornisce in output un valore nel range $[0, 1]$ per ciascuna componente.

Esempio: calcolo del vettore $f_{t}$

Si supponga che il risultato del termine lineare a monte della sigmoide sia:
$z = [- 2.0, 0.0, 2.0]$
Applicando la funzione sigmoide elemento per elemento:
$f_{t} = σ (z) = [σ (- 2.0), σ (0.0), σ (2.0)] = [0.119, 0.5, 0.881]$

Important

Il vettore $f_{t}$ , ottenuto a valle dell’applicazione della sigmoide, fornisce i pesi con cui verranno pesati gli elementi del vettore dello stato della cella precedente $c_{t - 1}$ :
$f_{t} ⊙ c_{t - 1}$
Ogni valore di $f_{t}$ indica quanto mantenere o dimenticare della corrispondente componente della memoria.

Esempio: Language model predicting the next word form the previous ones

In this case

the cell state $C_{t - 1}$ contains all the info that is flowing freely form the previous layers so it may have a component which encode in a number the gender of the subject: for instance let’s assume that the number encoding the gender component in this vector is the one associated which models the female subject
$x_{t}$ is a new sentence that starts with the name of a new person and this vector is converted through the affine transformation defined above into a vector of components f_t that has zero values for the components corresponding to component of the cell state vector c_t-1 which models the gender. SO after the $f_{t} ⊙ C_{t - 1}$ the gender component of c_t—1 multiplied by zero is forgotten: that’s forgetting the previous state, we are canceling the previous state component by component in this case the gender component

This explains why the name of this gate: it’s a way to de-amplify or even completely canceling the component of the previous cell state vector of the previous iteration C_t-1 which are no longer needed.

The cell state vector is like 100 or 1000 components usually (that’s already too much) and in 1000 numbers is not possible to represent all the book text.

Forma esplicita del forget gate:

Concatenando input e stato precedente in un unico vettore:

z_{t} = [x_{t} h_{t - 1}] \in R^{d + h}

e definendo una matrice dei pesi combinata:

W_{f} = [W_{x f} W_{h f}] \in R^{h \times (d + h)}

posso riscrivere la formula del forget gate in forma compatta:

f_{t} = σ (W_{f} z_{t} + b_{f})

oppure, con notazione alternativa (dove la concatenazione è scritta come tupla trasposta):

f_{t} = σ (W_{f} (x_{t}, h_{t - 1})^{⊤} + b_{f})

🧠 Dalla Forma Esplicita a quella Compatta L’obiettivo è trasformare l’espressione del forget gate, che contiene due distinte moltiplicazioni matrice-vettore, in una forma più sintetica con una sola moltiplicazione. Il punto di partenza è la formula esplicita: $f_{t} = σ (W_{x f} x_{t} + W_{h f} h_{t - 1} + b_{f})$ Per compattarla, seguiamo due passaggi chiave: 1. Unione delle Matrici dei Pesi: Le due matrici dei pesi, $W_{x f}$ (per l’input $x_{t}$ ) e $W_{h f}$ (per lo stato nascosto $h_{t - 1}$ ), vengono concatenate orizzontalmente in un’unica, grande matrice $W_{f}$ . $W_{f} = [W_{x f} W_{h f}]$ 2. Unione dei Vettori di Input: L’input corrente $x_{t}$ e lo stato nascosto precedente $h_{t - 1}$ vengono concatenati verticalmente. La notazione $(x_{t}, h_{t - 1})^{⊤}$ rappresenta proprio la creazione di un unico vettore colonna a partire dalla tupla dei due vettori. $(x_{t}, h_{t - 1})^{⊤} \equiv [x_{t} h_{t - 1}]$ Moltiplicando la nuova matrice $W_{f}$ per il nuovo vettore concatenato, grazie alle regole della moltiplicazione tra matrici a blocchi, otteniamo esattamente la somma originale: $W_{f} (x_{t}, h_{t - 1})^{⊤} = [W_{x f} W_{h f}] [x_{t} h_{t - 1}] = W_{x f} x_{t} + W_{h f} h_{t - 1}$ Questo ci permette di scrivere la formula finale del forget gate in una forma compatta ed elegante: $f_{t} = σ (W_{f} (x_{t}, h_{t - 1})^{⊤} + b_{f})$ --- ✅ Vantaggi di Questa Notazione * Efficienza: Riduce due operazioni di moltiplicazione separate in una singola operazione, ottimizzando il calcolo specialmente su hardware come le GPU. * Semplicità: Il codice per implementare la rete neurale diventa più pulito e meno ripetitivo. * Standardizzazione: È la notazione più comune nelle implementazioni dei moderni framework di deep learning (come PyTorch e TensorFlow), dove le operazioni vengono vettorializzate al massimo.

Mini - Batch

Nel caso di un minibatch, non elaboriamo più un singolo vettore di input, ma una matrice di input $X_{t}$ , dove ogni colonna rappresenta un esempio del batch. Di conseguenza, anche lo stato nascosto precedente e l’output del gate diventano matrici.

Matrice di Input $X_{t}$ : Contiene l’intero batch di input. La sua dimensione è $R^{n_{inputs} \times batch_size}$ .
Matrice dello Stato Nascosto $H_{t - 1}$ : Contiene gli stati nascosti precedenti per ogni esempio nel batch. La sua dimensione è $R^{n_{neurons} \times batch_size}$ .

🧠 Pesi e Bias nel Contesto Batch

Un concetto fondamentale è che i parametri del layer (pesi e bias) sono condivisi tra tutti gli esempi del batch.

Matrici dei Pesi $W_{x f}, W_{h f}$ : Le loro dimensioni non cambiano. Rimangono $R^{n_{neurons} \times n_{inputs}}$ e $R^{n_{neurons} \times n_{neurons}}$ rispettivamente. La stessa matrice dei pesi viene usata per trasformare tutti gli input nel batch.
Vettore di Bias $b_{f}$ : Anche il bias rimane un singolo vettore di dimensione $R^{n_{neurons}}$ . Durante il calcolo, viene aggiunto a ogni colonna della matrice risultante tramite un’operazione chiamata broadcasting.

🚀 La Formula Vettorizzata per il Minibatch

La forma esplicita del forget gate viene generalizzata utilizzando la moltiplicazione di matrici. Usiamo lettere maiuscole per indicare le matrici che rappresentano i batch. $F_{t} = σ (W_{x f} X_{t} + W_{h f} H_{t - 1} + b_{f})$ Dove le dimensioni sono ora:

$X_{t} \in R^{n_{inputs} \times batch_size}$ è la matrice di input al tempo $t$ .
$H_{t - 1} \in R^{n_{neurons} \times batch_size}$ è la matrice degli stati nascosti precedenti.
$W_{x f} \in R^{n_{neurons} \times n_{inputs}}$ e $W_{h f} \in R^{n_{neurons} \times n_{neurons}}$ sono le matrici dei pesi (invariate).
$b_{f} \in R^{n_{neurons}}$ è il vettore di bias (invariato, applicato tramite broadcasting).
$F_{t} \in R^{n_{neurons} \times batch_size}$ è la matrice di output del forget gate per l’intero batch. Questa formulazione “vettorizzata” è estremamente efficiente e costituisce la base per l’addestramento delle reti neurali su hardware moderno come le GPU.

Deep Learning

Explorer

Forget Gate

Single instance

Mini - Batch

🧠 Pesi e Bias nel Contesto Batch

🚀 La Formula Vettorizzata per il Minibatch

Graph View

Table of Contents