Bild: Rudolf A. Blaha

Hier spricht dein Computer

Text-to-Speech-Technik kostenlos ausprobieren

Sprachassistenten in Smartphones und intelligenten Lautsprechern plaudern mit synthetischen Stimmen, die sich oft kaum noch von menschlichen Stimmen unterscheiden lassen. Im Test zeigen kostenlose Webdienste, wie weit die Sprachsynthese inzwischen vorangeschritten ist.

Von Dorothee Wiegand

Siri, Alexa und ihre Kollegen haben die Sprachsynthese populär gemacht. Die auch unter der Bezeichnung Text-to-Speech (TTS) bekannte Technik gibt es zwar schon lange, doch die künstlichen Stimmen aus dem Computer klangen bis vor ein paar Jahren monoton, oft abgehackt und eindeutig nach Roboter. Durch den Einsatz neuronaler Netze und Deep Learning hat die Sprachsynthese große Fortschritte gemacht. KI verleiht den Stimmen Rhythmus und Sprachmelodie. Insbesondere neu entwickelte englische TTS-Stimmen klingen verblüffend echt und menschlich.

Das Ausgangsmaterial für eine TTS-Stimme sind von Menschen gesprochene Sprachschnipsel – einzelne Wörter, Halbsätze und Sätze, häufig ohne Sinnzusammenhang. Dieses Audiomaterial wird in zum Teil sehr kleine Einheiten zerlegt, die später bei der Synthese in beliebiger Reihenfolge neu zusammengesetzt werden können. Die neueste Entwicklung: Nicht professionelle Sprecher liefern das Ausgangsmaterial, sondern es wird entweder aus öffentlichen Reden prominenter Personen erzeugt oder im Auftrag von Kunden aus von ihnen eingesprochenem Trainingsmaterial gewonnen [1].