c't 8/2018
S. 110
Hintergrund
Deepfakes: Audio

Böse Zungen

Tücken der automatischen Sprachsynthese

Forscher arbeiten an sprecherabhängiger Sprachsynthese, mit der sie nach Analyse einer Audiodatei jeder Person beliebige Worte in den Mund legen können. Künftig muss man bei Aufnahmen genau hinhören, um zu entscheiden, ob ein Satz wirklich so gesagt oder nachträglich manipuliert wurde.

Auf der Adobe Max 2016 tippte der Computerwissenschaftler Zeyu Jin ein paar Wörter in eine Textkonsole und aus den Lautsprechern ertönte die Stimme des Schauspielers Jordan Peele. Mit seiner Software VoCo ließ Jin den Komiker sagen, was immer er wollte. Ein Team der Princeton-Universität entwickelt VoCo in Zusammenarbeit mit Adobe. Das Programm analysiert Sprachaufnahmen und synthetisiert die Stimme des Sprechers über simple Texteingabe. 20 Minuten saubere Sprachaufzeichnung braucht VoCo, um brauchbare Resultate zu erzielen.

Mit seiner Software dominierte Jin für kurze Zeit die Technik-News im Web. Die Software bedeute für Audio-Aufnahmen ähnliches wie Photoshop für Bilder, so der Tenor. Spiegel Online warnte vor Risiken und Missbrauch. Man könne Merkel in den Mund legen: „Wir schaffen das doch nicht“, sinnierte Die Zeit. Adobe versicherte, in die von VoCo manipulierten Audio-Schnipsel akustische Wasserzeichen einzubauen, anhand derer sie leicht zu identifizieren wären.