Klon am Mikrofon

Was synthetische Stimmen leisten

KI-Verfahren für die Sprachtechnik machen gerade rasante Fortschritte. Inzwischen lassen sich synthetische Stimmen nach dem Vorbild der Stimme einer echten Person anfertigen – mit verblüffenden Ergebnissen. Die Kollegen von heise online probieren das gerade praktisch aus.

Von Dorothee Wiegand

Von Montag bis Freitag liefert der News-Podcast „Kurz informiert“ von heise online die wichtigsten IT- und Tech-News. Die Stimme in den dreiminütigen Sendungen ist regelmäßigen Hörern bestens vertraut: Isabel Grünewald spricht die Kurznachrichten mit ihrer charakteristischen Sprachmelodie und ihrer klaren und sympathischen Stimme. Mitte September bekam sie Verstärkung durch eine mithilfe von KI erzeugte künstliche Sprecherkollegin. Rund 2,5 Stunden Audiomaterial, das Grünewald für das Projekt aufgezeichnet hatte, waren das Ausgangsmaterial. Daraus generierten Sprachspezialisten von Aflorithmic Labs die neue, synthetische Stimme, deren Charakteristik möglichst dicht am Vorbild sein sollte.

Matthias Lehmann, Chief Operating Officer des auf Audioproduktionen spezialisierten Start-ups, erklärt: „Wir haben Textschnipsel und Satzfragmente verwendet, die in den Nachrichten bei heise online häufig vorkommen.“ Die 2,5 Stunden Audiomaterial waren dabei wenig im Vergleich zu dem, was etwa für kommerzielle synthetische Stimmen verwendet wird. „Das können bis zu 40 Stunden sein“, erklärt Lehmann, der betont, dass das Projekt mit heise online bisher ein reines Demo-Projekt sei: „Wir wussten, dass es noch nicht perfekt klingen würde.“