Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Alexas mühevoller Weg in deutsche Wohnzimmer

von Karsten Lemm
Als erste Fremdsprache musste Amazons Digitalassistentin Deutsch lernen. Keine leichte Aufgabe, wie Amazon-Manager Al Lindsay im WIRED-Gespräch erklärt. Und auch ein Jahr nach dem Deutschlandstart haben viele mögliche Kunden weiterhin Angst davor, dass der Online-Händler immer mithört.

Wann wird der Papiermüll abgeholt? Heute, morgen, übermorgen? „Alexa, sag mal…“ So viele Tonnen, so viele Fragen – und die Sprachassistentin von Amazon weiß sie meist trefflich zu beantworten. Deshalb ist der Abfallkalender zu einer der beliebtesten Anwendungen für Alexa geworden. 4,5 von 5 Sternen bei mehr als 250 Bewertungen. Deutschland: jetzt konsequent digital, auch bei der Mülltrennung.

Al Lindsay freut vor allem, dass die deutsche Alexa gut ein Jahr nach dem Start schon mehr als 2500 Fähigkeiten (von Amazon „Skills“ genannt) gelernt hat. „Wir sehen, dass Schwung reinkommt“, sagt der Amazon-Manager, der für die Software-Entwicklung des Sprachsystems zuständig ist. „Die Zahl der Skills hat in den vergangenen Monaten deutlich zugenommen.“

Tatsächlich hat es Amazon geschafft, seine digitale Assistentin in Rekordzeit bekannter zu machen als alle anderen: Fast 80 Prozent der Deutschen wissen laut einer PwC-Umfrage von Alexa – während nur 70 Prozent Siri kennen und noch weniger die Sprachsysteme von Google oder Microsoft.

Bei der Nutzung allerdings bleibt Alexa deutlich zurück (siehe Grafik). Kein Wunder: Zum einen sind die Alexa-Konkurrentinnen auf Smartphones allgegenwärtig, während Alexa nur Nutzer von Amazons Echo-Lautsprechern erreicht. Zum anderen haben viele Menschen – gerade in Deutschland – weiterhin die Angst, dass alles, was sie sagen, von Amazon mitgehört wird, wenn Alexa ins Haus kommt: Schließlich stecken in jedem der Geräte sieben Mikrofone, um Sprachbefehle an die Server zu übertragen. Und wer garantiert, dass Amazon wirklich nur dann zuhört, wenn Nutzer den Weckruf aussprechen: „Hallo, Alexa…“?

Im Gespräch mit WIRED erklärt Lindsay, was seine Ingenieure tun, um solche Bedenken auszuräumen; wie komplex es ist, Alexa eine neue Sprache beizubringen; und warum es keinen männlichen „Alex“ gibt. Zum Treffen in Berlin war Lindsay aus Seattle angereist. Neben ihm saß der deutsche Amazon-Sprecher Michael Wilmes, der gelegentlich aushalf, Fragen zu beantworten – etwa danach, wie es kam, dass Alexa Anfang November in Pinneberg ungewollt DJ spielte und mit ihrer Musikeinlage einen Polizei-Einsatz provozierte.

WIRED: Herr Lindsay, wie schwer ist es, Alexa eine neue Sprache oder neue Fähigkeiten beizubringen?
Al Lindsay: Skills sind leicht. Ein erfahrener Programmierer schafft das in wenigen Stunden, wenn es um Standardfunktionen geht, für die wir bereits Lösungen entwickelt haben. Wir sprechen dabei von intents, also Absichten von Nutzern. Auf Kommandos wie „Pizza bestellen“ oder „Staureport“ ist Alexa von uns bereits trainiert worden, die kann jeder Entwickler einfach aus dem Regal ziehen und für eigene Zwecke benutzen.

WIRED: Was passiert, wenn Ihre Datenbank die Anwendung noch nicht kennt?
Lindsay: Falls Entwickler neue Ausdrücke verwenden wollen, die Alexa noch nie gehört hat, brauchen wir ein paar Beispielsätze, die zeigen, wie Menschen die Anfrage formulieren würden. Auf dieser Basis können wir unser System trainieren, mit der ungewohnten Aufgabe umzugehen. In der Regel ist das kein großer Aufwand.

WIRED: Und wenn Alexa eine neue Sprache lernen soll?
Lindsay: Das ist weit komplexer. Zunächst muss das System Wörter und Sätze verstehen und verarbeiten können, um den Sinn zu erkennen und die Anfrage zu bearbeiten. Dazu brauchen wir für jede Sprache einen Katalog mit Eigennamen, Orten, Restaurants und anderen entities (Einheiten), die Alexa eine Art lokales Allgemeinwissen vermitteln. Auch Informationsquellen und Partnerdienste, etwa fürs Musik-Streaming, sind von Land zu Land unterschiedlich. Und schließlich, nicht zu vergessen, brauchen wir eine Stimme für Alexa, die natürlich und unverfälscht klingen soll. All das bedeutet viel Arbeit für unsere 5000 Entwickler weltweit.

WIRED: Warum spricht Alexa grundsätzlich mit einer Frauenstimme?
Lindsay: Wir haben viel getestet, und den meisten Menschen scheint es so am besten zu gefallen. Wir hören da, wie immer, auf die Wünsche unserer Kunden.

WIRED: Niemand verlangt nach einem männlichen Gegenstück, einem „Alex“?
Lindsay: Doch, das kommt schon vor. Manche Leute hätten auch gern, dass Alexa mit der Stimme von Prominenten spricht oder mit ihrer eigenen oder der eines Familienmitglieds. Aber es ist viel Aufwand, Alexa mit einer natürlichen Stimme sprechen zu lassen.

WIRED: Woran liegt das?
Lindsay: Wir beginnen mit einer Auswahl professioneller Sprecherinnen, machen eine Reihe von Tests und befragen Fokusgruppen, um Feedback zu bekommen. Wenn wir uns für eine Stimme entschieden haben, beginnen die Sprachaufnahmen, und am Ende bearbeiten Software-Ingenieure die Audiodateien, damit alles, was Alexa sagt, so natürlich klingt wie möglich. Deshalb dauert es viele Monate, dem System eine einzige neue Stimme zu geben.

WIRED: Wie vermeiden Sie, dass die Sprache künstlich wirkt?
Lindsay: Das hat viel mit maschinellem Lernen zu tun. Die Basis bilden zunächst Aufnahmen, die von Menschen gesprochen und digital in kleine Schnipsel zerlegt werden. Diese speichert man in Datenbanken, um sie bei der Ausgabe zu beliebigen Wörtern wieder zusammenzusetzen. Der Trick besteht darin, die Bruchstücke so fließend miteinander zu verbinden, dass sich alles anhört wie aus einem Guss.

WIRED: Und wenn nicht, klingt es wie eine schlechte U-Bahn-Ansage…
Lindsay: Deshalb setzen wir Algorithmen ein, die anhand von Millionen Beispielen lernen, wie es klingt, wenn Menschen sprechen. Deutsch war die erste Fremdsprache, die wir Alexa beigebracht haben. Unser Amazon Fire TV hat dabei sehr geholfen, denn dessen Sprachsteuerung basiert auf derselben Technologie wie Alexa. So hatten wir schon ein gutes Verständnis davon, worauf wir bei Deutsch achten müssen, ehe wir die Echo-Lautsprecher in Deutschland auf den Markt gebracht haben.

WIRED: Alexa ist zwar schon nach einem Jahr bekannter als Siri, Cortana und der Google-Assistent – aber viele Menschen zögern, solche Systeme zu nutzen. Zu den häufigsten Bedenken gehört die Angst, dass Amazon immerzu mithört, wenn ein vernetzter Echo-Lautsprecher in der Wohnung steht.
Lindsay: Der Schutz der Privatsphäre steht für uns an oberster Stelle. Wir wissen, das ist vor allem eine Frage des Vertrauens, und deshalb versuchen wir, das System so transparent zu gestalten wie nur möglich. Daten werden erst dann übertragen, wenn jemand „Alexa“ sagt, um das System aufzuwecken – und dann zeigt auch ein blauer Leuchtring, dass Alexa aktiv ist. Wer Angst hat, hinter seinem Rücken belauscht zu werden, kann zusätzlich ein Audio-Signal einstellen. Dann macht das System jedes Mal „Boing!“, wenn es aktiviert wird.

WIRED: Woher wissen Nutzer, dass nicht trotzdem Daten übertragen werden? Sicherheits-Experten haben ja bereits gezeigt, dass es theoretisch möglich ist, die Geräte zu hacken.
Lindsay: Diese Szenarien bezogen sich auf ältere Modelle und setzen voraus, dass Angreifer die Chance haben, die Hardware des Lautsprechers zu manipulieren. Denn wir haben als grundlegenden Sicherheitsmechanismus einen Stummschalt-Knopf eingebaut. Wird der gedrückt, zeigt ein roter Leuchtring an, dass die Mikrofone physisch vom Rest des Systems getrennt sind. Damit wird es unmöglich, weiterhin mitzuhören und Tonaufnahmen zu versenden. Denn wenn das rote Licht leuchtet, gibt es keine Verbindung zu den Mikrofonen mehr. Das hat auch der TÜV überprüft und bestätigt. Angreifer müssten also das Gerät in die Hände bekommen und umbauen – was weit schwieriger ist, als die Software zu hacken.

WIRED: In den USA wurde Alexa Zeugin in einem Kriminalfall. Wie kam das?
Michael Wilmes, Sprecher Amazon Deutschland: Da ging es um einen Kunden, der uns zu seiner Entlastung ausdrücklich erlaubt hatte, Audio-Aufnahmen an die ermittelnden Behörden weiterzugeben. Aus eigenem Antrieb würden wir so etwas niemals tun.
Lindsay: Alexa sendet nur Audiodaten in die Cloud, wenn der blaue Leuchtring anzeigt, dass das System aktiv ist. Und wenn Sie in die App gehen, können Sie alles sehen, was jemals aufgenommen wurde. Sie können es sich nochmal anhören und bei Bedarf auch löschen – dann verschwindet die betreffende Aufnahme aus all unseren Systemen. Für immer.

WIRED: Dem einen oder anderen, der weiterhin zweifelt, mag jetzt der Vorfall neulich in Pinneberg in den Sinn kommen, als Nachbarn die Polizei riefen, weil Alexa mitten in der Nacht plötzlich anfing, laut Musik zu machen – ohne dass der Besitzer etwas davon wusste, weil er nicht zu Hause war.
Wilmes: Auch in diesem Fall hat uns der Kunde erlaubt, seine Nutzerdaten zu untersuchen, damit wir der Sache auf den Grund gehen konnten. Was sich dabei zeigte, war: Kurz nachdem der Besitzer seine Wohnung verlassen hatte, aktivierte eine Musikstreaming-App, die mit seinem Konto verknüpft war, eigenständig den Echo-Lautsprecher und stellte ihn auf volle Lautstärke.

WIRED: Was können Kunden können, um ähnliche Vorfälle zu vermeiden?
Wilmes: Kunden sollten sicherstellen, dass sie nicht unbeabsichtigt in der Hosentasche ihr Smartphone aktivieren, wenn sie Anwendungen nutzen, die mit Alexa oder Amazon Echo verknüpft sind.

WIRED: Sie haben gerade mehrere neue Echo-Modelle vorgestellt, darunter zum ersten Mal eines mit Display. Erst bringen Sie Alexa mühevoll das Sprechen bei, und dann muss sie sich gegen einen Bildschirm behaupten?
Lindsay: Alexa bleibt auch weiterhin in erster Linie eine Sprachassistentin. Es geht vor allem darum, gesprochene Informationen mit Bildern zu ergänzen. Der Wetterbericht ist ein gutes Beispiel: Heute müssen Sie 40 Sekunden lang zuhören, um zu erfahren, wie die Vorhersage für die nächsten sieben Tage lautet. Mit dem Echo Show sagt Alexa Ihnen, wie das Wetter heute und morgen werden soll, und auf dem Display sehen Sie sofort für die nächste Woche, ob Sonne oder Wolken kommen.

WIRED: Bedanken sich am Ende viele Leute bei Alexa?
Lindsay: Durchaus. Und wenn sie es hört, antwortet Alexa: „Bitte schön.“ Allerdings müssen Nutzer dazu sagen: „Danke, Alexa.“ Wenn Menschen einfach nur „danke“ sagen, bekommt das System nichts davon mit, weil das Codewort zum Hinhören fehlt.

GQ Empfiehlt