c't 12/2023
S. 128
Redaktionsleben
Datamining
Bild: KI Midjourney | Bearbeitung: c‘t

c’t-Textmining: Wir zählen Wörter aus 40 Jahren c’t

Welches Tier kommt eigentlich am häufigsten in c’t vor? In welcher Ausgabe war wohl erstmals mehr von Gigahertz als von Megahertz die Rede? Beim c’t-Textmining haben wir allerhand kuriose und interessante Funde zutage gefördert. In Wortwolken bebildern wir, wie sich das Themenspektrum von c’t über die Jahrzehnte entwickelt hat.

Von Niklas Dierking

Die Redaktion beschäftigt sich in diesem Jubiläumsheft mit sich selbst und kramt im Archiv nach alten Artikeln, packt Anekdoten aus, die es wert sind, nochmal erzählt zu werden und gibt Ihnen einen Blick hinter die Kulissen. Georg Schnurer hat auf Seite 132 erzählt, wie die Begriffe „Schwuppdizität“ oder die „Hommingberger Gepardenforelle“ ihren Weg in c’t gefunden haben. Dieser Artikel richtet den quantitativen Blick auf den c’t-Wortschatz und schürft im Textkorpus von vier Jahrzehnten nach Datengold.

In der ersten c’t-Ausgabe 12/1983 tummeln sich prominent Drucker, Programme, Bits, Zeichen, Bilder, Zeilen und  BASIC. Von Windows und Linux ist keine Rede, aber es gibt Artikel über Apple. Keine Überraschung: Computer ist das häufigste Wort.
In der ersten c’t-Ausgabe 12/1983 tummeln sich prominent Drucker, Programme, Bits, Zeichen, Bilder, Zeilen und BASIC. Von Windows und Linux ist keine Rede, aber es gibt Artikel über Apple. Keine Überraschung: Computer ist das häufigste Wort.

Mein Kollege Achim Barczok hatte die Idee zum c’t-Textmining. Wäre es nicht spannend, mal durchzuzählen, ob in vier Jahrzehnten c’t öfter „Windows“ oder „Linux“ gedruckt wurde? Wenig überraschend hat „Windows“ mit 203.197 Nennungen das Rennen gemacht. Linux haben wir 61.994 Mal gefunden. Um zu diesen Ergebnissen zu kommen, haben wir uns allerdings nicht mit einem Klemmbrett die Nächte im Archiv um die Ohren geschlagen, sondern von einem Python-Skript helfen lassen. Das Skript durchkämmt JSON-Dateien nach bestimmten Wörtern, die neben Metadaten zu den Artikeln auch den gesamten Inhalt einer c’t-Ausgabe als unformatierten Text enthalten.

Kommentieren