Selbst wenn das eigene Smartphone einen gerne mal missversteht, sind die Mikrofone und Sprachanalysesoftware doch in den letzten Jahren ziemlich feinhörig geworden. Immer mehr Telefone lauschen gar ständig auf potentielle Sprachkommandos. Ein Team aus Wissenschaftlern der Universität von Kalifornien, Berkeley und der Universität von Georgetown wollte herausfinden, wie dies genutzt werden könnte, um die Geräte anzugreifen und fernzusteuern. Allerdings ohne, dass der potentielle Angreifer sich selbst dabei enttarnt oder die Smartphone-Besitzer mitbekommen, dass ihr Telefon gerade gekapert wird.
Tatsächlich sind moderne Smartphones in der Lage, akustische Kommandos zu entschlüsseln, die „maschinenlesbar aber für Menschen vollkommen unverständlich“ bleiben. Als Angriffsziel wählte das Team um Nicholas Carlini und Pratyush Mishra den auf vielen Smartphones laufenden Google Assistant aus, der mit dem Weckkommando „Ok Google“ aktiviert wird. Mit einem Text-zu-Sprache-Synthesizer wurden verschiedene Kommandos generiert, um etwa eine Website zu öffnen oder Nachrichten zu verschicken. Diese wurden in einem sogenannten Audio Mangler anschließend händisch und mit verschiedenen Filtern bearbeitet. Es wurden Frequenzen und Töne abgeschwächt oder gelöscht, die nicht für die Spracherkennung nötig sind, die Audiospur wurde mehrfach beschleunigt und mit starkem akustischen Rauschen und Verzerrungen versehen.
Die im Trial-and-Error-Verfahren erprobten Audio-Files sind nicht komplett nichtssagend. Jedoch sind sie äußerst schwer zu verstehen und lassen an geisterhafte Dämonenstimmen denken, wie sie in Horrorfilmen zu hören sind. Durchschnittlich hätten die getesteten Smartphones in über 95 Prozent der Fälle das Kommando „Okay Google“ korrekt erkannt. Menschliche Probanden hätten nur eine Erkennungsquote von rund 20 Prozent gehabt. Auch in einem Testaufbau ist ein Samsung-Telefon problemlos in der Lage, die verzerrten Sprachbrocken zu befolgen und eine Webseite anzusteuern. Wie die Forscher in ihrer Studie anmerken, wären die Audio-Attacken ohne all zu viel Wissen über Spracherkennungssoftware erstellbar. Sie ließen sich theoretisch in Youtube-Videos einbauen oder in einer Lautsprecheransage verstecken und dabei nutzen, um das Telefon auf infizierte Websites zu lenken oder gar Finanz-Apps, Geld überweisen zu lassen.