c't 17/2021
S. 110
Test & Beratung
Audiotranskription
Bild: Thorsten Hübner

Diktatmaschinen

Transkriptionsdienste: Audioaufnahmen in Text wandeln

Webdienste mit künstlicher Intelligenz erkennen deutsche und englische Rede ohne aufwendiges Training. Das erspart, in Vorlesungen, Interviews und ähnlichen Situationen live mitzuschreiben und schafft den Freiraum, sich ganz auf den Vortrag oder das Gespräch zu konzentrieren.

Von André Kramer

Transkriptionsdienste wandeln gesprochene Alltagssprache in lesbaren Text. Mit Methoden maschinellen Lernens funktioniert das mittlerweile sprecherunabhängig, das heißt ohne vorheriges Training. Das bietet deutlich mehr Freiheit als der frühere Ansatz, bei dem die eingerichtete Software fest an einen Sprecher gebunden war und somit ausschließlich als persönliche Diktatsoftware diente.

Auf YouTube erscheinen bei jedem Video automatisch generierte Untertitel, die zwar gerade in Beiträgen mit vielen exotischen Fachbegriffen nicht immer akkurat sind, aber durchaus gut genug, um den Inhalt wiederzugeben. Sie helfen gehörlosen Zuschauern, aber auch solchen die gerade Kartoffelchips oder eine laute elektrische Zahnbürste im Mund haben.

Webdienste zur Audiotranskription sind für alle hilfreich, die regelmäßig Interviews oder Redebeiträge verschriftlichen. Die Vision der Hersteller: Man hat immer den Audio-Recorder auf dem Smartphone bereit, schickt die Aufnahme im WAV- oder MP3-Format durch die KI auf den Server des Dienstes der Wahl und lädt sich nach kurzer Wartezeit den lupenrein lesbaren Text herunter.

Verglichen mit digitalen Assistenten sollen sie besser mit komplexen Themen zurechtkommen. Siri und Alexa geht es da eher wie jemandem mit Fremdsprachenkenntnissen aus der Schule: Für Standardsituationen reicht es, aber bei freier Rede ist schnell der Ofen aus.

Sechs Webdienste versprechen deutschsprachige Audioaufnahmen zuverlässig in editierbaren Text zu verwandeln: Amberscript, Audext, f4x, Happyscribe, Trint und Wreally transcribe.

Transkriptionsdienste in der Praxis

Dank künstlicher Intelligenz können Neulinge schnell in die Webdienste einsteigen und auch Redebeiträge von weiteren Personen wie Interviewten schnell und unkompliziert verschriftlichen. Auf den Webseiten der Anbieter kann man Audio- oder Video-Dateien direkt von der Festplatte hochladen. Einige unterstützen Dienste wie Google Drive, Dropbox und Microsoft OneDrive oder nehmen YouTube-Links entgegen. Die Anbieter unterstützen Standardformate wie MP3 und WAV beziehungsweise MP4 und MOV. Nach wenigen Minuten stellen sie den Text wahlweise als TXT-, DOCX-, RTF- oder PDF-Dokument zum Download bereit. Amberscript, Happyscribe und Trint, die offenbar dieselbe zugrundeliegende Technik nutzen, bieten auch das Untertitelformat SRT an, eine Textdatei mit Timecodes. Happyscribe und Trint können außerdem automatisch übersetzen. Ins Englische übertragen wirken die Texte passabel übersetzt.

Eine beliebte Anwendung für specherunabhängige Audiotranskription sind automatische Untertitel wie auf YouTube.

Einige Transkriptionsdienste schreiben nicht nur selbst auf, sondern unterstützen auch beim Niederschreiben und bei der Korrektur, indem sie eine Textverarbeitung mit einem Audioplayer verbinden. So korrigiert man den automatisch ermittelten Text gleich in der Software. Eine Reihe Tastenkürzel vereinfacht den Prozess, indem man pausiert oder einige Sekunden zurückspringt, um eine Passage erneut zu hören. Alternativ kann man USB-Pedale nutzen, um die Hände zum Tippen frei zu haben. Geeignete Fußschalter gibt es für 30 bis 100 Euro. Bei der Korrektur hilft außerdem eine Funktion, die Aufnahme schneller oder langsamer abzuspielen.

Wir haben anhand eines eingesprochenen Beispieltextes mit verschiedenen Passagen die Erkennungsrate der Dienste überprüft und dabei nicht nur die Fehler gezählt, sondern auch die Zeichensetzung in Betracht gezogen. Bei der Korrektur hilft es außerdem, wenn die Dienste Absätze einfügen.

Kommentieren