Multilabel Logistic Loss

Si indaga ora come si istanzia $L_{CE}$ al caso di classificazione multi classe non mutuamente esclusiva, nota come classificazione multilabel.
In tale scenario, un singolo esempio può essere associato contemporaneamente a più etichette.

In una piattaforma di e-commerce, un singolo prodotto può essere classificato contemporaneamente come "elettronica", "portatile" e "gaming".

Nel contesto della multilabel classification, il modello deve produrre tante uscite quanti sono le classi possibili. Ogni neurone di uscita, indicato come $a_{j}$ , stima la probabilità che l’esempio appartenga individualmente alla classe $j$ .

Ogni uscita $a_{j}$ rappresenta la probabilità indipendente della classe $j$ .
Non esiste un vincolo sulla somma delle probabilità: $j \sum a_{j} \neq = 1$
Le classi non sono mutuamente esclusive:
un esempio può appartenere a zero, una o più classi contemporaneamente.

Sigmoide nei neuroni di uscita: perché è fondamentale?

La funzione sigmoide è fondamentale perché consente di mappare ogni valore reale $z \in (- \infty, + \infty)$ in un intervallo limitato $[0, 1]$ , permettendo di interpretare l’uscita come una probabilità.

📌 Sebbene nelle reti moderne la sigmoide sia poco utilizzata nei layer nascosti (a favore per esempio della ReLU), essa rimane essenziale qualora si desideri trasformare in probabilità le uscite grezze dei singoli neuroni del layer di output.

👉 In particolare, questo è il caso nei problemi di classificazione multilabel, dove ogni uscita sigmoide $a_{j}$ rappresenta in modo indipendente la probabilità che la classe $j$ sia presente.

🔍 La somma delle attivazioni sigmoidi non dà 1

Si riporta un esempio esplicito che mostra come, in una rete con layer di uscita sigmoide,
le attivazioni $a_{j}^{L}$ non sommino necessariamente a $1$ .

Si supponga di avere due neuroni di uscita.
Calcolando gli input netti $z_{1}$ e $z_{2}$ e applicando la funzione sigmoide $σ (z)$ a ciascuno:

$z_{1} = 2 \Rightarrow a_{1} = σ (2) \approx 0.88$
$z_{2} = 3 \Rightarrow a_{2} = σ (3) \approx 0.95$

Sommando le attivazioni:

a_{1} + a_{2} \approx 0.88 + 0.95 = 1.83

Come si osserva, la somma è maggiore di 1.
Quindi, un layer di uscita con sigmoidi indipendenti non genera una distribuzione di probabilità.

⚡ Nota

La sigmoide agisce indipendentemente su ciascun neurone di uscita, senza vincolare la somma delle attivazioni a $1$ . Se si desidera ottenere una vera distribuzione di probabilità, occorre utilizzare un layer softmax.

🧠 Ricorda

Quando nel layer finale si hanno molti neuroni sigmoidi, il vettore delle attivazioni $a^{L}$ non costituisce una distribuzione di probabilità. Ogni componente agisce in modo indipendente.

Declinazione $L_{CE}$ alla classificazione multi label

Multilabel classification = combination of multiple binary classification tasks

Un problema di classificazione multilabel si può riguardare come una combinazione di molteplici problemi di classificazione binaria indipendenti.

🌟 Come funziona nel dettaglio:

Per ciascuna classe $j$ , il neurone di uscita stima una probabilità $a_{j}$ che il campione appartenga a quella classe.

La quantità $1 - a_{j}$ esprime la probabilità che il campione non appartenga alla classe $j$ , ovvero che si collochi in modo dicotomico nell’insieme complementare delle classi residue, considerate come un’unica alternativa (one versus all fashion).

Per ogni neurone si calcola una Binary Cross-Entropy (BCE) Loss.

La loss totale è ottenuta come somma di tutte le singole BCE losses, una per ciascun neurone di uscita:

$L_{totale} = j \sum L_{BCE, j}$

Elemento	Significato
$a_{j}$	Probabilità di appartenenza alla classe $j$
$1 - a_{j}$	Probabilità di non appartenenza alla classe $j$
Loss totale	Somma delle Binary Cross-Entropy losses su tutti i neuroni di uscita

La declinazione di $L_{CE}$ alla classificazione multilabel è detta multilabel logistic (ML) loss, $L_{M L}$ :

📘 Perché "logistic" nella Multilabel Logistic Loss

Il termine logistic si riferisce al fatto che ogni uscita $a_{j}$ viene ottenuta applicando una funzione sigmoide (nota anche come funzione logistica in statistica).
$a_{j} = σ (z_{j}) = \frac{1}{1 + e ^{- z_{j}}}$
👉 Per questo motivo, la Multilabel Logistic Loss viene anche chiamata BCEWithLogitsLoss nei framework come PyTorch, sottolineando il fatto che il modello, in fase di ottimizzazione, lavora direttamente sui logits (cioè sugli output grezzi non ancora trasformati da alcuna funzione di attivazione), e che è la loss stessa a incorporare internamente l’applicazione della funzione sigmoide, garantendo così migliore stabilità numerica e maggiore efficienza computazionale.

⚠️ Attenzione: instabilità numeriche con funzioni di loss basate su logaritmi

Le funzioni di loss basate su logaritmi, come la Binary Cross-Entropy o la Multilabel Logistic Loss, possono presentare instabilità numeriche a causa del comportamento del logaritmo in corrispondenza di valori estremi.

📌 In particolare:

Quando $a_{j}$ è $0$ o $1$ , si verifica un logaritmo di zero $lo g (0) = - \infty$ , che, se propagato durante la backpropagation, può generare gradienti non numerici (NaN) e rendere il training instabile o fallimentare. 👉 Per evitare tali problemi, è prassi consolidata nella pratica del deep learning inserire ε strategici: si aggiunge un piccolo valore positivo $ε$ alle attivazioni a monte dell’applicazione del logaritmo.

$lo g (a_{j}) \to lo g (a_{j} + ε) e lo g (1 - a_{j}) \to lo g (1 - a_{j} + ε)$
dove tipicamente $ε$ assume valori molto piccoli, ad esempio $ε = 1 0^{- 8}$ .

✅ Tale tecnica stabilizza il comportamento numerico garantendo che i logaritmi restino definiti e finiti durante il training.

Deep Learning

Explorer

Multilabel Logistic Loss

🔍 La somma delle attivazioni sigmoidi non dà 1

Declinazione $L_{CE}$ alla classificazione multi label

Graph View

Table of Contents

Deep Learning

Explorer

Multilabel Logistic Loss

🔍 La somma delle attivazioni sigmoidi non dà 1

Declinazione LCE​ alla classificazione multi label

Graph View

Table of Contents

Declinazione $L_{CE}$ alla classificazione multi label