Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Dank Adobe können wir unseren Ohren nicht mehr trauen

von Benedikt Plass-Fleßenkämper
Adobe hat ein Tool vorgestellt, auf das sich Podcaster und Betrüger gleichermaßen freuen können: VoCo soll ein Art Photoshop für Sprachaufnahmen werden. Stottern kann entfernt und Menschen neue Aussagen in den Mund gelegt werden.

„Wir haben bereits die Bildbearbeitung revolutioniert, nun ist es für uns an der Zeit, den Audio-Kram anzupacken“, sagte Adobe-Entwickler Zeyu Jin kürzlich auf der hauseigenen Konferenz „Adobe Max“ in San Diego. Was Jin damit meinte? Er kündigte eine neue Software an, die nach Photoshop, Illustrator, InDesign, Premiere und ähnlichen Adobe-Produkten ein weiteres Spielfeld für den Software-Anbieter eröffnen soll. Das Tool heißt VoCo, ein Audio-Editor.

VoCo ist eine Abkürzung für „Voice Conversion“ (VC). Wie andere VC-Programme kann es einen gesprochenen Text analysieren und verarbeiten. Das Ziel ist es, Tonaufnahmen derart gekonnt nachzubearbeiten, dass Nutzer daraus ohne Probleme komplett neue Sätze basteln können.

Ein Beispiel demonstrierte Jin bei der öffentlichen Präsentation auf der Adobe Max. Er spielte zuerst einen Tonausschnitt aus der US-Comedy-Show Key & Peele ab. Er lud die Audio-Datei in VoCo, das darauf hin einerseits die übliche Wellendarstellung zeigte, aber andererseits auch den gesprochenen Inhalt („Ich küsste meinen Hund und meine Frau“) in Textform darstellte. Danach veränderte Jin den Text mehrmals. Die finale Fassung endete schließlich mit „Und ich küsste Jordan drei Mal“, die VoCo sofort abspielte. Das sorgte für großes Gelächter im Publikum.

icon_cookie

Um diese Inhalte zu sehen, akzeptieren Sie bitte unsere Cookies.

Cookies verwalten

Das Ergebnis mag witzig und auch kurios anmuten, doch dahinter steckt viel mehr. Die kurze Demonstration von VoCo zeigt das Potenzial, das in dem neuen Adobe-Tool steckt. Mit nur wenigen Klicks und der Eingabe von komplett neuen Wörtern kann man Menschen Aussagen in den Mund legen. Der Algorithmus könnte also unser Vertrauen in gesprochene Worte nachhaltig verändern.

Aktuell benötigt VoCo mindestens 20 Minuten lange Aufnahmen einer Person, um daraus die sogenannten Phoneme herauszufiltern, die einem Laut seine Bedeutung zuweisen. Es ist aber davon auszugehen, dass die Prozedur noch optimiert wird.

Positiv betrachtet, eröffnet VoCo Radiomoderatoren und Podcastern die Möglichkeit, Audio-Files schnell nachzubearbeiten, indem alle „Ähs“ und Stotterer entfernt werden. Das Abschneiden von langen Sätzen dürfte mit VoCo ebenfalls kein Problem sein. Doch man könnte damit eben auch Reden von Politikern verändern oder sprachbasierten Sicherheitssystemen eine Fälschung unterjubeln.

Nils Lenke, Projektleiter beim Sprachsoftware-Hersteller Nuance Communications, sieht das Ganze weniger kritisch. „So eine Software ist ein alter Hut“, antwortete er Spiegel Online auf die Frage, ob man VoCo für Betrugsversuche missbrauchen könnte. Lenke zufolge lässt sich leicht entlarven, ob ein Sprachsignal verändert wurde. „Wir sind sicher, dass wir Täuschungsversuchen immer einen Schritt voraus sind“, sagt er. Steven Murdoch vom University College in London entkräftet diese Aussage etwas: „Der einzige Weg, um das herauszufinden, ist, es zu testen.“

Adobe ist sich des Potenzials seines „Audio-Photoshops“ bewusst und versichert, dass man bei allen Nachbearbeitungen eine Art Wasserzeichen einbauen werde, um Manipulationen leicht als solche erkennen zu können.Aktuell ist VoCo ein Prototyp, der ab 2017 ein Teil der Creative Cloud werden könnte. Bei der Creative Cloud handelt es sich um ein Online-Abo, mit dem Nutzer je nach Paket auf mehrere Adobe-Programme wie Photoshop oder Lighroom zugreifen können. Das Voice-Conversion-Tool könnte gerade für die Nutzer des Audio-Editors Audition CC wie auch des Filmschnitt-Programms Adobe Premiere eine sinnvolle Erweiterung darstellen.

Doch nicht nur für Cutter, Podcaster und Radiomacher wäre VoCo ein interessantes Tool. Das Musiker-News-Blog Gearnews spekuliert, dass Synchron- oder Hörbuchsprecher durch das Adobe-Tool arbeitslos werden könnten. Und Computerspiele, in denen viel gesprochen wird, wären leichter und kostengünstiger zu vertonen.

Kombiniert mit anderen Programmen ergeben sich aber noch ganze andere Arten von Einsatzmöglichkeiten. Hier ein weiteres Beispiel im Bereich des Missbrauchs: Im Zusammenspiel von VoCo mit dem Face2Face-Tool könnte man die Stimme und parallel dazu die Mimik verändern:

icon_cookie

Um diese Inhalte zu sehen, akzeptieren Sie bitte unsere Cookies.

Cookies verwalten

+++ Mehr von WIRED regelmäßig ins Postfach? Hier für den Newsletter anmelden +++ 

GQ Empfiehlt