
Danger
Le vanilla RNNs non sono in grado di apprendere relazioni di lungo termine, in quanto soggette al problema vanishing gradiente a causa della loro struttura intrinseca, come precedentemente discusso. Il problema è stato analizzato in dettaglio da Bengio, Frasconi et al. (1994).
Success
La soluzione fu proposta nel 1997 e rappresentò il primo successo commerciale su larga scala delle reti neurali. In precedenza, un altro risultato commercialmente rilevante era stato ottenuto con il lavoro di LeCun sul riconoscimento della scrittura manuale, ma si trattava di un’applicazione limitata a una nicchia molto specifica. Al contrario, la scoperta delle LSTM rese possibile il riconoscimento vocale. Prima dell’era del Deep Learning, quasi tutte le applicazioni commerciali basate su reti neurali erano, di fatto, fondate sugli LSTM.