Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Googles KI lernt zu sprechen wie ein Mensch

von Elisabeth Oberndorfer
Googles KI-Abteilung DeepMind hat einen Weg gefunden, die Sprachausgabe von Maschinen menschlicher zu gestalten. Die neue Machine-Learning-Methode WaveNet kann sogar Musik produzieren.

Sprachassistenten wie der von Google oder Apples Siri könnten bald weniger wie Roboter und mehr wie tatsächliche Menschen klingen. DeepMind, die Künstliche-Intelligenz-Forschungsabteilung von Google, hat einen neuen Ansatz für die Sprachausgabe von Maschinen gefunden. WaveNet heißt das Modell, für das rohe Audiosignale herangezogen werden.

Bisher basierte die Sprachsynthese vorwiegend auf gesprochenen Textbausteinen, die von der Künstlichen Intelligenz zu Sätzen geformt und dann wiedergegeben wurden. Dieses Vorgehen wird als konkatenatives Text-to-Speech-Verfahren (TTS) bezeichnet. Eine weitere Methode ist das parametrische TTS, die allerdings noch unnatürlicher klingt als konkatenative TTS.

Beim neuen neuronalen Netzwerk WaveNet setzt DeepMind deshalb rohe Audiosignale ein, aus denen die KI Sprache erzeugt. 16.000 Samples werden pro Sekunde erstellt, wobei die Maschine mit jedem produzierten Signal dazulernt. Die Maschine nutzt also Aufnahmen menschlicher Stimmen, bildet diese nach und kann damit ihre Prognose für die nächste Sprachausgabe verbessern. Laut den Google-Forschern ist diese Herangehensweise rechnerisch aufwändig, aber essenziell, um realistischen Sound zu generieren.

Damit WaveNet Sprache simulieren kann, muss es wissen, welchen Text es ausgeben soll. Hat die KI keine klare Vorgabe, fängt sie an zu stammeln. Die KI-Forscher haben ihr auch beigebracht, verschiedene Sprecheridentitäten zu schaffen. So kann ein Text von unterschiedlichen weiblichen und männlichen Stimmen ausgegeben werden. Je mehr Sprecher WaveNet kennenlernt, desto besser wird die Qualität der einzelnen Identität.

DeepMind hat WaveNet mit englischer und chinesischer Sprache getestet und Menschen die Qualität bewerten lassen. Auf einer Skala von 1 bis 5, wobei die menschliche Sprache bei 4,55 liegt, kommt WaveNet auf Englisch auf einen Wert von 4,21 und liegt damit 50 Prozent über der bisherigen Sprachsynthese. DeepMind spricht von einer großen Errungenschaft, die TTS-Methoden von Google gehörten zu den besten der Welt.

Weil die Technologie auf einzelnen Audiosignalen basiert, kann sie auch Musik wiedergeben. WaveNet kann bereits Samples von Klavierstücken produzieren. Wann Googles Sprachassistent die Stimme von WaveNet verliehen bekommt, verrät DeepMind allerdings noch nicht. Audio-Beispiele können auf dem DeepMind-Blog angehört werden. Die Details der WaveNet-Methode beschreibt die KI-Abteilung im dazugehörigen Forschungsbeitrag.

GQ Empfiehlt