Binary Cross Entropy Loss

In a binary classification scenario, the output can represent two distinct categories, such as dogs and cats. Tuttavia, per permetterne la gestione all’interno del modello, tali categorie vengono codificate in modo dicotomico, associando i valori $0$ e $1$ rispettivamente a ciascuna delle due classi.

Per effettuare una classificazione binaria è sufficiente un singolo neurone di uscita della rete neurale.

Questo perché l’uscita del neurone può essere interpretata come la probabilità di appartenenza a una delle due classi. Dalla teoria della probabilità, sappiamo che in un problema binario,
la probabilità dell’altra classe è semplicemente il complemento a uno di quella stimata:

P(\text{classe 0}) = 1 - P(\text{classe 1}) \quad \text{e viceversa}

$P er t an t o, co n osce n d o l a p ro babi l i t \overset{a}{ˋ} a ssoc ia t aa u na so l a c l a sse, l^{'} in f or ma z i o n es u ll a p ro babi l i t \overset{a}{ˋ} d e l l^{'} a lt r a \overset{e}{ˋ} a u t o ma t i c am e n t e d e t er mina t a .$

Specializing $L_{CE}$ for Binary Classification

Formally, the cross-entropy loss function is still written as:

L_{CE} = - j \sum y_{j} lo g (a_{j})

Warning

In classificazione binaria si ha un solo neurone di uscita. Tuttavia, nella formula esplicita della loss in tale contesto, compaiono comunque due termini: uno relativo alla classe positiva e uno alla classe negativa.

🎯 Perché compaiono due termini?

Anche se esiste un solo neurone che produce l’output $a_{1}$ , per modellare entrambe le possibili classi binarie si procede così:

La probabilità della classe 1 è direttamente $a_{1}$ (è una mia scelta).

Non esiste esplicitamente un $a_{0}$ : la probabilità della classe 0 è dedotta come complemento: $a_{0} = 1 - a_{1}$ .

Analogamente per i target: $y_{0} = 1 - y_{1}$ .

Warning

In binary classification, there is only a single output neuron. However, the explicit formula for the loss in this context still contains two terms: one for the positive class and one for the negative class.

🎯 Why are there two terms?

Even though there is only one neuron producing the output $a_{1}$ , both possible binary classes are modeled as follows:

The probability of class 1 is taken directly as $a_{1}$ (by convention).

An output $a_{0}$ does not explicitly exist; the probability of class 0 is inferred as its complement: $a_{0} = 1 - a_{1}$ .

The same logic applies to the target labels: $y_{0} = 1 - y_{1}$ .

Note

Nel caso binario, anche se l’uscita è unica, la loss tiene conto di entrambe le classi attraverso l’uso del complemento. $L_{CE}$ rappresenta entrambi i contributi, pur derivando da un solo neurone.

Poiché, essendoci un solo neurone in uscita, $a = a_{1}$ , $y = y_{1}$ , allora:

Due strade per arrivare alla Binary Cross-Entropy

🧠 Strada 1: Singolo neurone e analisi funzionale	📚 Strada 2: Cross-entropy di Shannon istanziata
Si considera un singolo neurone sigmoide. Dal momento che l’uscita è interpretata come una probabilità, in quanto la funzione sigmoide restituisce valori in $[0, 1]$ , il problema si configura naturalmente come una classificazione binaria. A partire da questo modello semplice, si imposta un problema di analisi funzionale. Da questa formulazione si perviene naturalmente alla binary cross-entropy loss.	Si parte dalla formula generale della cross-entropy di Shannon, definita tra due distribuzioni di probabilità. Istanziando il problema al caso di classificazione binaria — con una sola probabilità stimata e la complementare ricostruita — si arriva alla stessa espressione della binary cross-entropy loss.

🧠 Strada 1: Singolo neurone e analisi funzionale

📚 Strada 2: Cross-entropy di Shannon istanziata

Si considera un singolo neurone sigmoide. Dal momento che l’uscita è interpretata come una probabilità, in quanto la funzione sigmoide restituisce valori in

[0, 1]

, il problema si configura naturalmente come una classificazione binaria.
A partire da questo modello semplice, si imposta un problema di analisi funzionale. Da questa formulazione si perviene naturalmente alla binary cross-entropy loss.

Si parte dalla formula generale della cross-entropy di Shannon, definita tra due distribuzioni di probabilità.
Istanziando il problema al caso di classificazione binaria — con una sola probabilità stimata e la complementare ricostruita — si arriva alla stessa espressione della binary cross-entropy loss.

Entrambe le strade, pur partendo da approcci concettuali diversi, conducono naturalmente alla binary cross-entropy come funzione di costo per la classificazione binaria.

Deep Learning

Explorer

Binary Cross Entropy Loss

Specializing $L_{CE}$ for Binary Classification

Due strade per arrivare alla Binary Cross-Entropy

Graph View

Table of Contents

Deep Learning

Explorer

Binary Cross Entropy Loss

Specializing LCE​ for Binary Classification

Due strade per arrivare alla Binary Cross-Entropy

Graph View

Table of Contents

Specializing $L_{CE}$ for Binary Classification