c't 15/2018
S. 182
Know-how
Word2Vec
Aufmacherbild

Putin – KGB + NSA = Obama

Word2Vec berechnet Bedeutung

Was bedeutet ein Wort? Für einen Computer besteht die Antwort auf solche Fragen immer aus Zahlen. Aber welche Zahlen kodieren die Bedeutung eines Worts am besten? Der Word2Vec-Algorithmus begibt sich vollautomatisch auf die Suche und erstaunt mit sinnvollen Ergebnissen. Ausprobieren kann man das auf ganz normalen PCs.

Sie stehen am Kiosk. Als Ihr Blick über die Zeitungen des Tages streift, schnappen Sie die Wörter „Auto“, „Bahn“ und „Gold“ auf. Innerhalb von Millisekunden meldet sich Ihre Intuition: „Auto“ und „Bahn“ passen irgendwie zusammen, aber „Gold“ tanzt aus der Reihe. Für diese Analyse musste Ihr Gehirn die Buchstaben kombinieren und aus Ihrem Gedächtnis die Bedeutung der Wörter abrufen. Anhand derer ordnen Sie das Auto und die Bahn als Fortbewegungsmittel ein. Gold hat dagegen wenig mit Fortbewegung zu tun.

Bei der automatischen Analyse großer Textmengen soll der Computer entscheiden können, wie ähnlich die Bedeutung zweier Wörter ist. Nützlich ist das beispielsweise bei einer Suchmaschine, die Ergebnisse liefert, in denen die gesuchten Schlüsselwörter nicht exakt vorkommen, oder bei einem Bot, der Trends auf Twitter erkennt, weil er ähnliche Nachrichten zusammenfasst. Für all diese Aufgaben benötigt man ein System, welches die Ähnlichkeit von Wortpaaren berechnet.