Per ogni layer convoluzionale si stabilisce quante feature esso debba estrarre.

Ad esempio, se si desidera che il layer convoluzionale estragga 100 feature, allora la rete applicherà 100 kernel distinti, uno per ciascuna feature da rilevare (ognuno specializzato nell’individuare un pattern specifico). Stante ciò che si è visto in precedenza, ogni kernel genera la sua feature map.
Pertanto, il layer convoluzionale dovrà apprendere i pesi di tutti e 100 i kernel, in modo che ciascuno di essi sia in grado di estrarre automaticamente le feature richieste dai dati durante l’addestramento.

Durante l’addestramento, sarà la rete a specializzare ciascun kernel, affinché ognuno diventi sensibile a una feature peculiare esibita dai dati di input al layer convoluzionale considerato.

Important

In letteratura, il numero di feature (e quindi di kernel) che un layer convoluzionale produce viene indicato con :

  • rappresenta il numero di kernel convoluzionali applicati all’input del layer,
  • ed equivale al numero di feature map restituite in uscita da quel layer.

Si denoti con il numero di canali dell’input.

Finora si è considerato il caso in cui l’input abbia un solo canale (cioè ), come accade ad esempio per le immagini in scala di grigi.

Tuttavia, nella pratica più comune — ad esempio con immagini RGB — l’input di un layer convoluzionale può avere più canali: .


Input multi-canale ()

Quando l’input ha più canali (es. per immagini RGB), la ratio sottesa è diversa rispetto al caso .

Note

Per ogni canale di uscita :

  • la rete considera tutti i canali di input
  • e apprende un kernel 2D dedicato per ciascuna coppia

👉 Quindi, per ogni canale di uscita , vengono appresi kernel 2D.

Definzione

Filtro convoluzionale

I kernel 2D associati al canale vengono impilati in un blocco tridimensionale di pesi.

\boxed{ \textbf{Filtro convoluzionale} := \text{insieme di } C_{\text{in}} \text{ kernel 2D} \Rightarrow \text{matrice 3D di forma } (K \times K \times C_{\text{in}}) }

Kernel 2DFiltro convoluzionale
DefinizioneMatrice 2D di pesiInsieme di kernel 2D impilati
InputUn singolo canaleTutti i canali di input ()
OutputContributo a una feature mapUna feature map completa
Forma
Parametri per unità
Numero per canale output kernel1 filtro