3D convolution

Nel caso di convoluzione 3D, l’intuizione si estende a blocchi 3D:

Per ogni canale $C_{in}$ l’input è un blocco tridimensionale: profondità $D$ , altezza $H$ , larghezza $W$
Se ci sono $C_{in}$ canali, si hanno $C_{in}$ blocchi 3D, uno per ciascun canale
Ogni $A_{k}^{in} \in R^{D \times H \times W}$ rappresenta il $k$ -esimo canale di input come un volume 3D

Fissando un canale di output $j$ :

Il filtro convoluzionale usato dalla rete è uno stack di $C_{in}$ kernel 3D, ognuno di dimensione $K_{D} \times K_{H} \times K_{W}$
Questi kernel scorrono nei rispettivi blocchi di input

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$

Per ogni posizione spaziale $(z, x, y)$ nella mappa di output del canale $j$ , il valore viene calcolato nel seguente modo:

Per ogni canale $k$ dell’input:
- Si applica il kernel 3D $W_{jk} \in R^{K_{D} \times K_{H} \times K_{W}}$ sovrapponendolo al volume tridimensionale $A_{k}^{in}$ in modo che il centro del kernel cada sulla posizione $(z, x, y)$
- Si estrae quindi una regione cubica di dimensione $K_{D} \times K_{H} \times K_{W}$ dal $k$ -esimo canale dell’input
- Questo significa che la finestra del kernel scorre lungo le tre dimensioni $(z, x, y)$ , e a ogni passo raccoglie un blocco locale dell’input allineato con i pesi del kernel
- Si calcola infine il prodotto scalare elemento per elemento tra questa regione e il kernel $W_{jk}$ :
$(W_{jk} * A_{k}^{in}) [z, x, y] = d = 0 \sum K_{D} - 1 i = 0 \sum K_{H} - 1 ℓ = 0 \sum K_{W} - 1 W_{jk} [d, i, ℓ] \cdot A_{k}^{in} [z + d - P_{D}, x + ℓ - P_{H}, y + i - P_{W}]$

Si sommano i contributi di tutti i canali $k$ :

S [z, x, y] = k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [z, x, y]

Si aggiunge il bias $b_{j}$ e si applica la funzione di attivazione $f$ :

A_{j}^{out} [z, x, y] = f (S [z, x, y] + b_{j})

Note

Ogni valore $A_{j}^{out} [z, x, y]$ rappresenta uno scalare all’interno della mappa tridimensionale del canale di uscita $j$ .

Formula esplicita: versione element-wise

Esplicitando completamente la convoluzione 3D rispetto agli indici:

A_{j}^{out} [z, x, y] = f b_{j} + k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [z, x, y] d = 0 \sum K_{D} - 1 i = 0 \sum K_{H} - 1 ℓ = 0 \sum K_{W} - 1 W_{jk} [d, i, ℓ] \cdot A_{k}^{in} [z + d - P_{D}, x + ℓ - P_{H}, y + i - P_{W}]

$d$ : scorre la profondità
$i$ : scorre le righe (altezza)
$ℓ$ : scorre le colonne (larghezza)
$P_{D}$ , $P_{H}$ , $P_{W}$ : padding lungo ciascun asse

Il kernel convoluzionale viene sovrapposto a un blocco tridimensionale per ogni canale, ed esegue un prodotto scalare canale per canale.

🔢 Esempio concreto: convoluzione 3D con più canali

Si supponga di avere:

Un input tridimensionale con $C_{in} = 2$ canali

Ogni canale è un volume $A_{k}^{in} \in R^{6 \times 6 \times 6}$ , con assi:

$z$ : profondità (fronte ↔ retro)

$x$ : larghezza (sinistra → destra)

$y$ : altezza (alto → basso)

Un filtro convoluzionale per il canale di output $j$ , composto da:

Uno stack di $C_{in}$ kernel 3D, ciascuno di dimensione $3 \times 3 \times 3$ : $W_{jk} \in R^{3 \times 3 \times 3}$

SI usi padding 1 lungo tutte le dimensioni, così l’output avrà ancora dimensione $6 \times 6 \times 6$

Si consideri la posizione $(z, x, y) = (2, 2, 2)$ nell’output.

A questa posizione:

Si posiziona ogni kernel $W_{jk}$ (uno per ciascun canale $k$ ) con il suo centro su $(2, 2, 2)$

Da ogni volume di input $A_{k}^{in}$ si estrae un blocco cubico di dimensione $3 \times 3 \times 3$ :

Profondità: da $z - 1$ a $z + 1$ → $[1, 2, 3]$

Larghezza ( $x$ ): da $x - 1$ a $x + 1$ → $[1, 2, 3]$

Altezza ( $y$ ): da $y - 1$ a $y + 1$ → $[1, 2, 3]$

In notazione Python-like:
$Blocco estratto da A_{k}^{in} : A_{k}^{in} [1 : 4, 1 : 4, 1 : 4]$
✴️ Questo processo viene fatto per ogni canale $k = 0, \dots, C_{in} - 1$ .

🧮 Per ciascun canale di input $k$ :

Si calcola il prodotto scalare tra il blocco estratto da $A_{k}^{in}$ e il corrispondente kernel $W_{jk}$

📌 Alla fine:

Si sommano i contributi da tutti i canali

Si aggiunge il bias $b_{j}$

Si applica la funzione di attivazione

Risultato:
$A_{j}^{out} [2, 2, 2] = f (b_{j} + k = 0 \sum C_{in} - 1 (W_{jk} * A_{k}^{in}) [2, 2, 2])$

Conv 2D vs 3D

	Convoluzione 2D	Convoluzione 3D
Input	$C_{in}$ immagini 2D	$C_{in}$ blocchi 3D
Filtro convoluzionale	Stack di kernel 2D	Stack di kernel 3D
Per ogni posizione	Prodotto scalare 2D × 2D	Prodotto scalare 3D × 3D
Uscita (canale $j$ )	$A_{j}^{out} [x, y]$	$A_{j}^{out} [z, x, y]$

🔎 Geometria vs Notazione tensoriale

La descrizione geometrica riguarda le dimensioni spaziali effettive di un oggetto (e.g. larghezza, altezza, profondità).

La descrizione in termini di tensore aggiunge dimensioni “astratte” usate per rappresentare aspetti logico-strutturali come canali, batch o filtri.

Di conseguenza, un oggetto che geometricamente è $n$ -dimensionale può corrispondere a un tensore di ordine superiore.

Esempio:
Un kernel cubico che agisce nello spazio è geometricamente 3D (profondità, altezza, larghezza).
Se però lo si considera in un modello neurale con più canali di input, la sua rappresentazione diventa un tensore 4D (canali × profondità × altezza × larghezza).
Le ulteriori dimensioni non sono spaziali, ma descrivono la struttura dei dati.

Note

📎 Ogni filtro convoluzionale 3D è un blocco 4D di pesi con forma $C_{in} \times K_{D} \times K_{H} \times K_{W}$

📎 La profondità del kernel $K_{D}$ non deve coincidere con la profondità dell’input $D$ :
il kernel viene spostato lungo $z$ esattamente come lungo $x$ e $y$

🚫 Limitazioni delle convoluzioni 3D

Le CNN con convoluzioni 3D non sono molto diffuse perché:

Il numero di parametri cresce rapidamente con le dimensioni del volume (profondità, altezza, larghezza)

Richiedono più memoria e potenza computazionale rispetto alle CNN 2D

Le CNN funzionano molto bene su segnali 1D e immagini 2D, ma per dati 3D non rappresentano lo stato dell’arte.

➤ I Transformer, al contrario, sono dimension-agnostic e stanno emergendo come alternativa più efficace per strutture dati complesse e ad alta dimensionalità.

🧱 Nota Bene — Padding nella profondità (dimensione $z$ )

Nella convoluzione 3D, il kernel ha dimensione $K_{D} \times K_{H} \times K_{W}$ e viene fatto scorrere lungo tutte e tre le dimensioni: profondità ( $z$ ), altezza ( $x$ ), larghezza ( $y$ ).

Se la profondità del kernel $K_{D}$ è tale da “sforare” i bordi del volume di input,
allora si applica un padding anche lungo la profondità, analogamente a quanto avviene per $x$ e $y$ .

✅ Senza padding:

Il kernel può essere centrato solo dove entra completamente.

L’output ha profondità ridotta:
$D_{out} = D - K_{D} + 1$ (con stride = 1)

✅ Con padding:

Si aggiunge padding sopra e sotto lungo $z$ (profondità).

Questo consente al kernel di scorrere anche ai bordi del volume.

L’output può mantenere la stessa profondità dell’input.

📌 Esempio:

Input: $D = 5$

Kernel: $K_{D} = 3$

Padding: $P_{D} = 1$

→ Il kernel può scorrere da $z = 0$ a $z = 4$
→ Output: $D_{out} = 5$

🛠️ Conclusione:
Il padding in profondità è opzionale, ma fondamentale per mantenere l’allineamento tra input e output o per controllare la dimensione dell’output desiderato.

🎯 Nota Bene — Numero di Canali di Uscita ( $C_{out}$ )

Sia nella convoluzione 2D che in quella 3D, il numero di canali di uscita $C_{out}$ è una scelta indipendente dalle dimensioni spaziali del filtro convoluzionale.

Per ottenere $C_{out}$ feature map in uscita, la rete apprende $C_{out}$ filtri distinti.

Ogni filtro convoluzionale ha dimensione:

In 2D: $C_{in} \times K \times K$

In 3D: $C_{in} \times K_{D} \times K_{H} \times K_{W}$

🧠 Il numero di filtri (cioè $C_{out}$ ) determina la profondità dell’output,
ma non dipende dalle dimensioni spaziali del filtro, che controllano invece l’estensione locale dell’analisi sull’input.

🧭 Nota Bene — Differenza tra dati $(H, W, C_{in})$ e $(D, H, W, C_{in})$

Quando si lavora con reti convoluzionali, è fondamentale distinguere correttamente la struttura dell’input, soprattutto nel caso tridimensionale.

Caso 1 — Dati 2D multicanale → Forma: $(H, W, C_{in})$

Ogni punto $(x, y)$ contiene un vettore di $C_{in}$ valori (es. RGB).

Può essere visto come $C_{in}$ immagini 2D, una per ciascun canale.

✅ Convoluzione 2D → Filtro: $C_{in} \times K \times K$

Caso 2 — Dati 3D multicanale → Forma: $(D, H, W, C_{in})$

Quando si lavora con un input 3D multicanale di forma $(D, H, W, C_{in})$ ,
ci sono due modi naturali di raggruppare i dati:

Raggruppamento per canale (scelto dalle CNN 3D):

Si fissa un canale $k$ .

L’intero volume tridimensionale $D \times H \times W$ relativo a quel canale è trattato come un blocco 3D.

In totale: $C_{in}$ blocchi 3D separati.

Questo è il punto di vista usato nei layer convoluzionali 3D:
l’input è rappresentato come un tensore 4D
$A^{in} \in R^{C_{in} \times D \times H \times W}$ (canali $\times$ profondità $\times$ altezza $\times$ larghezza).

Raggruppamento per profondità:

Si fissa un indice di profondità $z$ .

Ogni slice $z$ corrisponde a un frame 2D di dimensione $H \times W$ con $C_{in}$ canali.

In totale: $D$ frame 2D multicanale, come nei video.

Questo punto di vista è utile quando $D$ rappresenta il tempo,
o una sequenza ordinata di dati (frame, istanti, scansioni).

📌 Quando usare ciascuna rappresentazione?

Se $D$ rappresenta una dimensione spaziale o temporale reale
(es. profondità, tempo nei video, asse nelle TAC),
si usa il raggruppamento per canale → convoluzione 3D standard.

Se invece $D$ è una proprietà interna al canale (es. spettro, feature astratte),
può essere trattato come parte dei canali:
si ridefinisce $C_{in}^{'} = D \cdot C_{in}$ e si può usare convoluzione 2D.

ℹ️ Profondità dell’output nella convoluzione 3D

In una convoluzione 3D, ogni canale di output genera una feature map tridimensionale,
di forma: $D_{out} \times H_{out} \times W_{out}$ .

La profondità dell’output $D_{out}$ dipende da:

profondità dell’input: $D$

dimensione del kernel lungo la profondità: $K_{D}$

padding lungo la profondità: $P_{D}$

stride lungo la profondità: $S_{D}$

🧮 Formula generale per la profondità dell’output:
$D_{out} = ⌊ \frac{D + 2 P _{D} - K _{D}}{S _{D}} ⌋ + 1$

📌 Quindi:

Se non si usa padding ( $P_{D} = 0$ ):
$D_{out} = ⌊ \frac{D - K _{D}}{S _{D}} ⌋ + 1$
👉 L’output avrà profondità ridotta rispetto all’input.

Se si desidera che l’output abbia la stessa profondità dell’input ( $D_{out} = D$ ),
allora bisogna usare il **padding :
$P_{D} = ⌊ \frac{K _{D} - 1}{2} ⌋$

✅ Il numero di canali di output $C_{out}$ è indipendente dalla profondità:
può essere scelto liberamente, come avviene nella convoluzione 2D.

Differenza tra $D$ e $K_{D}$

❗ È importante ricordare che nella convoluzione 3D:

$D$ è la profondità dell’input (cioè quante “slice” ha ogni blocco 3D)

$K_{D}$ è la profondità del kernel, ovvero quanto “spesso” è ciascun kernel 3D

✅ Non è necessario che $K_{D} = D$ .

Al contrario:

Spesso $K_{D} < D$ , così il kernel può scorrere lungo la profondità

Questo consente di catturare pattern locali nel tempo (es. video o segnali volumetrici)

📌 Analogamente a quanto avviene per altezza e larghezza ( $K_{H} < H$ , $K_{W} < W$ ), anche $K_{D}$ agisce come una finestra mobile che si sposta lungo l’asse della profondità.

Questo approccio permette di generare un output tridimensionale con profondità $D_{out} < D$ (a meno che non si usi padding “same” per mantenere $D_{out} = D$ ).

Deep Learning: Zero to Hero

Explorer

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$

Formula esplicita: versione element-wise

Conv 2D vs 3D

Graph View

Table of Contents

Deep Learning: Zero to Hero

Explorer

3D convolution

Calcolo del valore in uscita Ajout​[z,x,y]

Formula esplicita: versione element-wise

Conv 2D vs 3D

Graph View

Table of Contents

Calcolo del valore in uscita $A_{j}^{out} [z, x, y]$