06 - Conv3D (1)

Nel caso di convoluzione 3D, l’intuizione si estende a blocchi 3D:

Per ogni canale $C_{in}$ l’input è un blocco tridimensionale: profondità $D$ , altezza $H$ , larghezza $W$
Se ci sono $C_{in}$ canali, si hanno $C_{in}$ blocchi 3D, uno per ciascun canale
Ogni $A_{k}^{in} \in R^{D \times H \times W}$ rappresenta il $k$ -esimo canale di input come un volume 3D

Fissando un canale di output $j$ :

Il filtro convoluzionale usato dalla rete è uno stack di $C_{in}$ kernel 3D, ognuno di dimensione $K_{D} \times K_{H} \times K_{W}$
Questi kernel scorrono nei rispettivi blocchi di input

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$

Per ogni posizione spaziale $(z, x, y)$ nella mappa di output del canale $j$ , il valore viene calcolato nel seguente modo:

Per ogni canale $k$ dell’input:
- Si applica il kernel 3D $W_{jk} \in R^{K_{D} \times K_{H} \times K_{W}}$ sovrapponendolo al volume tridimensionale $A_{k}^{in}$ in modo che il centro del kernel cada sulla posizione $(z, x, y)$
- Si estrae quindi una regione cubica di dimensione $K_{D} \times K_{H} \times K_{W}$ dal $k$ -esimo canale dell’input
- Questo significa che la finestra del kernel scorre lungo le tre dimensioni $(z, x, y)$ , e a ogni passo raccoglie un blocco locale dell’input allineato con i pesi del kernel
- Si calcola infine il prodotto scalare elemento per elemento tra questa regione e il kernel $W_{jk}$ :
$(W_{jk} * A_{k}^{in}) [z, x, y] = d = 0 \sum K_{D} - 1 i = 0 \sum K_{H} - 1 ℓ = 0 \sum K_{W} - 1 W_{jk} [d, i, ℓ] \cdot A_{k}^{in} [z + d - P_{D}, x + ℓ - P_{H}, y + i - P_{W}]$

Si sommano i contributi di tutti i canali $k$ :

S [z, x, y] = k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [z, x, y]

Si aggiunge il bias $b_{j}$ e si applica la funzione di attivazione $f$ :

A_{j}^{out} [z, x, y] = f (S [z, x, y] + b_{j})

Note

Ogni valore $A_{j}^{out} [z, x, y]$ rappresenta uno scalare all’interno della mappa tridimensionale del canale di uscita $j$ .

Formula esplicita: versione element-wise

Esplicitando completamente la convoluzione 3D rispetto agli indici:

A_{j}^{out} [z, x, y] = f b_{j} + k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [z, x, y] d = 0 \sum K_{D} - 1 i = 0 \sum K_{H} - 1 ℓ = 0 \sum K_{W} - 1 W_{jk} [d, i, ℓ] \cdot A_{k}^{in} [z + d - P_{D}, x + ℓ - P_{H}, y + i - P_{W}]

$d$ : scorre la profondità
$i$ : scorre le righe (altezza)
$ℓ$ : scorre le colonne (larghezza)
$P_{D}$ , $P_{H}$ , $P_{W}$ : padding lungo ciascun asse

Il kernel convoluzionale viene sovrapposto a un blocco tridimensionale per ogni canale, ed esegue un prodotto scalare canale per canale.

🔢 Esempio concreto: convoluzione 3D con più canali

Si supponga di avere:

Un input tridimensionale con $C_{in} = 2$ canali

Ogni canale è un volume $A_{k}^{in} \in R^{6 \times 6 \times 6}$ , con assi:

$z$ : profondità (fronte ↔ retro)

$x$ : larghezza (sinistra → destra)

$y$ : altezza (alto → basso)

Un filtro convoluzionale per il canale di output $j$ , composto da:

Uno stack di $C_{in}$ kernel 3D, ciascuno di dimensione $3 \times 3 \times 3$ : $W_{jk} \in R^{3 \times 3 \times 3}$

SI usi padding 1 lungo tutte le dimensioni, così l’output avrà ancora dimensione $6 \times 6 \times 6$

Si consideri la posizione $(z, x, y) = (2, 2, 2)$ nell’output.

A questa posizione:

Si posiziona ogni kernel $W_{jk}$ (uno per ciascun canale $k$ ) con il suo centro su $(2, 2, 2)$

Da ogni volume di input $A_{k}^{in}$ si estrae un blocco cubico di dimensione $3 \times 3 \times 3$ :

Profondità: da $z - 1$ a $z + 1$ → $[1, 2, 3]$

Larghezza ( $x$ ): da $x - 1$ a $x + 1$ → $[1, 2, 3]$

Altezza ( $y$ ): da $y - 1$ a $y + 1$ → $[1, 2, 3]$

In notazione Python-like:
$Blocco estratto da A_{k}^{in} : A_{k}^{in} [1 : 4, 1 : 4, 1 : 4]$
✴️ Questo processo viene fatto per ogni canale $k = 0, \dots, C_{in} - 1$ .

🧮 Per ciascun canale di input $k$ :

Si calcola il prodotto scalare tra il blocco estratto da $A_{k}^{in}$ e il corrispondente kernel $W_{jk}$

📌 Alla fine:

Si sommano i contributi da tutti i canali

Si aggiunge il bias $b_{j}$

Si applica la funzione di attivazione

Risultato:
$A_{j}^{out} [2, 2, 2] = f (b_{j} + k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [2, 2, 2])$

Conv 2D vs 3D

	Convoluzione 2D	Convoluzione 3D
Input	$C_{in}$ immagini 2D	$C_{in}$ blocchi 3D
Filtro convoluzionale	Stack di kernel 2D	Stack di kernel 3D
Per ogni posizione	Prodotto scalare 2D × 2D	Prodotto scalare 3D × 3D
Uscita (canale $j$ )	$A_{j}^{out} [x, y]$	$A_{j}^{out} [z, x, y]$

🔎 Geometria vs Notazione tensoriale

La descrizione geometrica riguarda le dimensioni spaziali effettive di un oggetto (e.g. larghezza, altezza, profondità).

La descrizione in termini di tensore aggiunge dimensioni “astratte” usate per rappresentare aspetti logico-strutturali come canali, batch o filtri.

Di conseguenza, un oggetto che geometricamente è $n$ -dimensionale può corrispondere a un tensore di ordine superiore.

Esempio:
Un kernel cubico che agisce nello spazio è geometricamente 3D (profondità, altezza, larghezza).
Se però lo si considera in un modello neurale con più canali di input, la sua rappresentazione diventa un tensore 4D (canali × profondità × altezza × larghezza).
Le ulteriori dimensioni non sono spaziali, ma descrivono la struttura dei dati.

Note

📎 Ogni filtro convoluzionale 3D è un blocco 4D di pesi con forma $C_{in} \times K_{D} \times K_{H} \times K_{W}$

📎 La profondità del kernel $K_{D}$ non deve coincidere con la profondità dell’input $D$ :
il kernel viene spostato lungo $z$ esattamente come lungo $x$ e $y$

🚫 Limitazioni delle convoluzioni 3D

Le CNN con convoluzioni 3D non sono molto diffuse perché:

Il numero di parametri cresce rapidamente con le dimensioni del volume (profondità, altezza, larghezza)

Richiedono più memoria e potenza computazionale rispetto alle CNN 2D

Le CNN funzionano molto bene su segnali 1D e immagini 2D, ma per dati 3D non rappresentano lo stato dell’arte.

➤ I Transformer, al contrario, sono dimension-agnostic e stanno emergendo come alternativa più efficace per strutture dati complesse e ad alta dimensionalità.

Deep Learning

Explorer

06 - Conv3D (1)

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$

Formula esplicita: versione element-wise

Conv 2D vs 3D

Graph View

Table of Contents

Deep Learning

Explorer

06 - Conv3D (1)

Calcolo del valore in uscita Ajout​[z,x,y]

Formula esplicita: versione element-wise

Conv 2D vs 3D

Graph View

Table of Contents

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$