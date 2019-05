Denise Bergert

Das Translatotron-Modell von Google soll Sprachaufnahmen direkt in eine andere Sprache übersetzen.

Vergrößern Künstliche Intelligenz © Fotolia.com / agsandrew

Google hat in dieser Woche auf seinem Google AI Blog ein neues Modell vorgestellt, das Sprachaufnahmen direkt in gesprochene Sprache übersetzen kann. Um eine Audioaufnahme oder gesprochene Sätze zu übersetzen und als gesprochene Sprache auszugeben, waren bislang mehrere Zwischenschritte nötig. So wurde die gesprochene Sprache in Text umgewandelt, der dann von einer KI übersetzt und am Ende wieder in gesprochene Sprache umgewandelt und ausgegeben wurde.

Der Google Translatotron überspringt diese Zwischenschritte. Mit Hilfe eines Sequence-to-Sequence-Modells übersetzt das System Spektrogramme. Die Umwandlung in Text entfällt. Für die Sprachausgabe sorgt am Ende ein Vocoder, der im Zusammenspiel mit einem Speaker Encoder für eine möglichst realistische Audioausgabe sorgen soll, die sich an der Stimme der ursprünglichen Sprachaufnahme orientiert. Wie gut der Translatotron funktioniert, zeigt Google in seinem Blogbeitrag anhand von einigen Beispielen. Bei der Software handelt es sich laut dem Konzern aktuell jedoch nur um eine Machbarkeitsstudie. Von einem fertigen Produkt für Endanwender ist das Modell noch weit entfernt.

