c't 11/2022
S. 52
Aktuell
Sprachverarbeitung

Alexa, lern Sprachen!

Amazon will Spracherkennung voranbringen

Amazon stellt einen umfangreichen Sprachdatensatz frei zur Verfügung und ruft zur Teilnahme an einem Wettbewerb rund um die Erkennung gesprochener Sprache auf. Beides hat ein Ziel: Die Sprachassistentin Alexa soll neue Sprachen lernen.

Von Dorothee Wiegand

Der Name ist Programm: „MASSIVE“ heißt der Sprachdatensatz, den Amazon unter einer CC-BY-4.0-Lizenz veröffentlichte. Das steht für „Multilingual Amazon SLURP (Spoken Language Understanding Resource Package) for Slot Filling, Intent Classification and Virtual-Assistant Evaluation“. SLURP ist ein Paket ausschließlich englischsprachiger Audiodaten, das ein Team von Spracherkennungsexperten 2020 zusammenstellte. Es ist der Kern des MASSIVE-Datensatzes. Die Sammlung steht auf Github ebenfalls frei zur Verfügung (siehe ct.de/yvba). Sie besteht aus rund einer Million typischen Anfragen, wie sie Nutzer von Sprachassistenten üblicherweise an Alexa, Siri und ähnliche Systeme richten.

Aus 1 mach 51

Wissenschaftler im Alexa-AI-Team bei Amazon ließen die rein englischen SLURP-Daten von menschlichen Übersetzern in 50 weitere Sprachen übertragen. Nach dieser Vorarbeit könnte ein einziges Sprachmodell in der Lage sein, gesprochene Spracheingaben in allen beteiligten Sprachen ebenfalls zu verstehen und zu bearbeiten – so die Hoffnung der Forscher bei Amazon. Das Unternehmen möchte Entwickler auf der ganzen Welt motivieren, dies praktisch auszuprobieren.

Kommentieren