Nel il gruppo di Hinton, che vinse la ImageNet Challenge con la rete AlexNet, si avvalse di filtri convoluzionali di dimensioni : tali filtri, associati al primo layer (deputato a processare i dati di input ossia le immagini raw), erano e ciascuno è composto da kernel .
Info
Laddove i kernel non possono essere visualizzati, sono solo un insieme di numeri, i kernel possono essere ispezionati visivamente.
Note
AlexNet è stata la prima istanza di successo di una rete CNN (a rigore anche la prima CNN proposta da Lecun fu un successo ma su scala piu piccola: il riconoscimento di caratteri manoscritti) su larga scala (ImageNet-scale: milioni di immagini e migliaia di categorie).
Nella seguente figura, a sinistra sono riportati i primi su filtri appresi automaticamente dal primo layer convoluzionale di AlexNet. A destra sono riportati i kernel convoluzionali di Gabor usati nell’Image Analysis per estrarre features.

Gabor filters vs AlexNet
È strabiliante notare come i filtri appresi automaticamente dal primo layer convoluzionale di AlexNet risultino sorprendentemente simili ai kernel convoluzionali di Gabor. La somiglianza tra gli estrattori di features appresi automaticamente e quelli progettati manualmente dall’uomo, come i filtri di Gabor, è sorprendente.
Motivazione intuitiva I filtri di Gabor sono estrattori di bordi di basso livello. Il primo layer di AlexNet è essenzialmente è un estrattore di features di bordi
Ciò accade nella retina umana: la prima cosa che avviene nella nostra retina è la sensibilità ai bordi.
CNN and Visual Cortex
Sussiste un chiaro parallelismo: la percezione visiva umana, l’estrazione matematica delle caratteristiche (come i filtri di Gabor) e l’estrazione automatica tramite CNN convergono tutte verso lo stesso principio fondamentale: il primo passo consiste nell’estrarre i bordi dall’immagine. Da questi bordi si costruiscono livelli superiori di astrazione.
Si parla, infatti, di una catena di livelli di astrazione.
Important
Le CNN sono un tool di apprendimento di rappresentazioni gerarchiche per le immagini.