c't 19/2017
S. 170
Know-how
Neuronale Netze: LSTM
Aufmacherbild

Langes Kurzzeitgedächtnis

Mit rekurrenten neuronalen Netzen Texte verschlagworten

Normale neuronale Netze kennen keine Zeit und können daher keine Sequenzen lernen. Rekurrente neuronale Netze dagegen versorgen sich selbst mit Hinweisen zum nächsten Schritt. Wirklich gut funktioniert das aber erst mit Long Short-Term Memory. Wir verschlagworten heise online und zeigen, wie Sie selbst ein LSTM trainieren.

Auf heise online gibt es aktuell 48.777 Meldungen, die mit mindestens einem der 100 häufigsten Tags verschlagwortet wurden. Ein guter Leser schafft etwa 400 Wörter pro Minute und müsste zumindest 1000 Wörter jeder Meldung lesen, um sinnvoll aus den 100 häufigsten Schlagwörtern wählen zu können. Er bräuchte also mehr als 2000 Stunden, um die Meldungen zu lesen, was ihn über 254Tage beschäftigen würde (er liest 8 Stunden pro Tag). Das will keiner machen.

Anhand der Häufigkeit bestimmter Wörter oder der Abfolgen von Wörtern ließe sich in vielen Fällen auch automatisch entscheiden, ob ein Schlagwort zum Artikel passt. Bevor man aber einen Entwickler gefunden hätte, der diese Zusammenhänge per Hand – beispielsweise als reguläre Ausdrücke – programmiert, hat man auch sämtliche Texte gelesen.