Quando si applica una convoluzione 2D a un input multicanale (e.g. un’immagine RGB), il processo può essere visualizzato in termini di blocchi 2D impilati per ciascun canale di input.
- Fissando un canale di output , la rete utilizza un filtro convoluzionale dedicato per generare la feature map corrispondente.
- Tale filtro è composto da uno stack di kernel 2D, uno per ogni canale dell’input.
- Per ogni posizione spaziale , il filtro viene centrato su quella posizione:
- si calcola la convoluzione 2D tra ciascun kernel e il rispettivo canale di input
- si ottengono mappe parziali (scalari)
- questi scalari vengono sommati, poi si aggiunge un bias e si applica una funzione di attivazione
Formula:
dove ogni è un’immagine 2D, ogni è un kernel 2D.
Visualization

| No Padding |
|---|
| Padding |
Numbers of parameters involved
