Quando si applica una convoluzione 2D a un input multicanale (e.g. un’immagine RGB), il processo può essere visualizzato in termini di blocchi 2D impilati per ciascun canale di input.

  • Fissando un canale di output , la rete utilizza un filtro convoluzionale dedicato per generare la feature map corrispondente.
  • Tale filtro è composto da uno stack di kernel 2D, uno per ogni canale dell’input.
  • Per ogni posizione spaziale , il filtro viene centrato su quella posizione:
    • si calcola la convoluzione 2D tra ciascun kernel e il rispettivo canale di input
    • si ottengono mappe parziali (scalari)
    • questi scalari vengono sommati, poi si aggiunge un bias e si applica una funzione di attivazione

Formula:

dove ogni è un’immagine 2D, ogni è un kernel 2D.


Visualization

No Padding
Padding

Numbers of parameters involved