Il risultato dell’operazione convoluzionale, descritta nella formula compatta output convoluzione , è una matrice di attivazioni.

Tale matrice, indicata con , rappresenta l’output del layer convoluzionale, ed è chiamata Feature Map

❓ Perché "Feature Map"

La denominazione di feature map per la matrice é mutuata dall’ Image Processing.

Nel contesto dell’Image Processing, esiste un operatore convoluzionale chiamato Laplacian Of Gaussians (LoG) e nella figura in basso sono riportati i pesi di tale kernel.

A valle della convoluzione del kernel LoG con l’immagine di input della farfalla (figura in basso), in output si ottengono i bordi che sono una delle possibili caratteristiche (features) dell’immagine.

Dunque, l’output di un layer convoluzionale enfatizza certe caratteristiche dell’immagine da cui la denominazione di feature map dell’output di un layer convoluzionale.


Kernel multipli nelle CNN

💡Ispirazione dall'Image Processin

L’idea (già presente nel lavoro di Fukushima) nasce dall’osservazione che, nel campo dell’Image Processing, kernel diversi sono in grado di estrarre feature differenti e peculiari dai dati.

Ad esempio:

  • un kernel LoG (Laplacian of Gaussian) enfatizza i bordi (cioè variazioni rapide nei dati, contenuto in alta frequenza),
  • un kernel gaussiano produce come output una versione sfocata dell’immagine di input un effetto di (blurring), filtrando il contenuto a bassa frequenza.

Dunque l’idea di usare diversi kernel nelle reti convoluzionali nasce dalla considerazione che ogni kernel puo estrarre le sue features specifiche dai dati di input

Kernel multipli nelle CNN

Nelle reti convoluzionali si applicano più kernel nello stesso layer.
Ogni kernel:

  • ha parametri indipendenti (appresi durante l’addestramento),
  • viene applicato a tutto l’input,
  • genera la sua feature map,
  • si specializza nel riconoscere un diverso tipo di pattern locale.

Profondità del layer: depth o channels

Il numero di kernel applicati in un layer convoluzionale prende il nome di:

  • profondità (depth), oppure
  • numero di canali (channels).

Important

In uscita da un layer convoluzionale, si ottiene quindi una feature map per ogni kernel.
Il risultato è uno stack tridimensionale di attivazioni, composto da:

  • altezza,
  • larghezza,
  • e numero di canali (uno per ciascun kernel).

In altre parole: ogni kernel costruisce una sua “visione” dell’input, e il layer ne restituisce una collezione sovrapposta di rappresentazioni.