c't 20/2023
S. 38
Aktuell
Audio-KI

Meta macht Musik

KI-Generatoren erzeugen Musik und Geräusche

Metas KI-Sammlung AudioCraft erzeugt per Text-Prompt Musik oder Geräusche wie eine Polizeisirene und kodiert Audiostreams mit erstaunlich niedrigen Bitraten. Wir haben hingehört, wie gut die Generatoren der Facebook-Mutter klingen.

Von Kai Schwirzke

Bereits vor einigen Wochen stellte Meta die KI MusicGen vor, die ähnlich wie Riffusion (siehe c’t 6/2023, S. 123) Musikstücke auf Basis von Eingaben am Text-Prompt generiert. Die Tags „summer feeling, caribean beach, sundowner“ sollen beispielsweise in beschwingtem Reggae münden, passend zum Feierabend-Drink. Ähnlich funktioniert das ebenfalls von Meta entwickelte AudioGen, nur dass anhand von Texteingaben Soundeffekte oder Geräuschkulissen entstehen. Als drittes Glied in der Sammlung AudioCraft fungiert EnCodec, ein KI-basierter De- und Encoder, der weitaus effizienter arbeiten soll als rein algorithmische Verfahren wie MP3.

Die Entwickler fütterten AudioGen während der Trainingsphase über ein GAN (Generative Adversarial Network) mit zehn Soundsets (rund 4000 Stunden Material), darunter die frei zugänglichen BBC Sound Effects und die Free To Use Sounds. Als Sampling-Rate entschied man sich für 16 kHz – hohe Frequenzen werden also bei 8 kHz abgeschnitten.

Kommentieren