Deepfakes und Deep-Video-Porträts - was sind sie und was sind ihre Unterschiede?

Sie wissen definitiv, was Deepfake ist, aber Sie wissen möglicherweise nicht, was es ist oder was es wirklich bedeutet. Möglicherweise wissen Sie nicht, dass es verschiedene Technologien gibt, die gefälschtes Video und Audio erzeugen können.

Wir alle kennen die "photoshopped" Bilder und wie weit sie gegangen sind. Wir führen auch Videoeffekte (VFX) und Spezialeffekte ein, die seit Jahrzehnten in Filmen verwendet werden. Aber aufgrund von Deepfakes kommt ein neues Zeitalter gefälschter Medien.

Deepfake- und Deep Video Portrait-Technologien sind zwei ähnliche, aber unterschiedliche Techniken, die in Hollywood-Filmen, YouTube-Videos und ja, Pornografie verwendet werden. Aber was ist diese Technologie wirklich und wie funktioniert das alles?

Wenn Sie Nicholas Cages verleumderisches Video über einen anderen Filmschauspieler noch nicht gesehen haben, dann haben Sie wahrscheinlich viele "Filter" oder "Masken" in sozialen Medien gesehen, die Sie zu einer Katze machen. Fügen Sie einen Koch hinzu. Setzen Sie einen Hut auf Ihren Kopf oder machen Sie ihn einfarbig.

Sie haben wahrscheinlich BuzzFeed-Videos gesehen, in denen der Komiker und Impressionist Jordan Pil im Video zeigt, wie jemand sein Gesicht manipulieren kann (in diesem Fall der frühere Präsident Barack Obama) und etwas zu sagen scheint, was er nie getan hat.

Vielleicht haben Sie sogar gehört, dass Wonder Woman-Star Gal Gadot in einem angeblich erwachsenen Video in einem gefälschten Film namens "Depths" eines Reddit-Benutzers zu sehen ist. Gadots Gesicht wurde im vergangenen Dezember dem Körper eines Pornostars hinzugefügt. Deepfakes.

Was ist Deepfake?

Sie können sich die Basis von Deepfakes als "Gesichtsveränderung" vorstellen.

Deepfake ist ein AI-unterstütztes Video, das durch Aufnehmen mehrerer Fotos (normalerweise Hunderte oder Tausende) einer Quellperson erstellt wird. Diese Bilder können aus einer Reihe von Quellen heruntergeladen werden, darunter Instagram, Facebook, Snapchat oder sogar die Google-Bildsuche.

Deepfake AI ordnet das Gesicht der Quellbilder zu und erstellt ein 3D-Modell basierend auf den Fotos, die Sie betrachten. Das Modell bildet die Gesichter und Merkmale des Regisseurs ab:

Quelle: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 Von Cole Murray

Das Programm bietet auch ein Quellvideo mit einem Zielgesicht, das der Benutzer ändern möchte. AI bildet auch das Gesicht der Person im Video ab und erstellt ein weiteres 3D-Kartenmodell.

Simon Lucy, Professor für Forschung an der CMU, zeigt anhand eines Modells die für seinen Glaswarenhändler entwickelte Face-Mapping-Software. Bildnachweis: Simon Lucey / CMU

AI beginnt, das Quellmodell mit dem Zielmodell abzugleichen. Es "lernt" die Gesichter durch die Bilder (Übungsdaten), was ein bisschen aussieht wie:

Beispiel für eine Gesichtsersatzübung - Adi Robertson von Elon Musk und Jeff Bezos, Quelle: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

Die KI entfernt dann das generierte 3D-Gesicht aus den Fotos im 3D-Modell des Zielvideos und erstellt ein Video, das den Bewegungen von Gesicht, Mund, Augen usw. entspricht. ursprüngliches Gesicht.

Deepfakes Quelle ist eine Reihe von Bildern, und das Ergebnis von Deepfake ist ein persönliches Video, das als Beispiel geändert wurde:

Was unterscheidet dieses tiefe Videoporträt?

Der Unterschied zwischen "Deepfake" und "Deep Video Portrait" (DVP zur Verkürzung) besteht in zwei Hauptunterschieden:

  1. Video von DVP ersetzt nicht das Gesicht, sondern steuert nur die Funktionen
  2. Die Quelle für DVP sind nicht persönliche Fotos, sondern Live-Schauspieler.

DVP ist kein Gesichtsersatz. Es ist Gesichtsmanipulation. Video Puppenspiel.

Das am Anfang dieses Artikels verlinkte Video zeigte, dass Obama von gefälschten Videos spricht, nicht von einer Fälschung, sondern von einem Beispiel für DVP. Es gibt einen Schauspieler, dessen Gesicht auf der Karte angezeigt wird. Wenn Sie das Zielgesicht nicht geändert, sondern nur das Zielgesicht verschoben haben, ist das Ergebnis noch glaubwürdiger als die fotografische Tiefe.

DVP-Entwickler können gezielt blinken, den Mund öffnen, die Augenbrauen hochziehen und den Kopf drehen. Tiefere Stimmen können wiederum nicht von den ursprünglichen Videoaktionen ablenken. Aus diesem Grund kann man DVP mehr als alles andere vertrauen.

Dieses Beispiel bietet einen detaillierteren Einblick in die Funktionsweise dieser Technologie zum Schminken und Reintegrieren von Gesichtern:

Die Snapchat- oder Instagram-Filtermaske ist DVP, nicht Deepfake. Dies liegt daran, dass Sie (das Ziel ändert keine Gesichter), aber Ihr Gesicht zugeordnet ist und die App nur etwas für Ihr Gesicht schließt:

Sound gefälschte und tiefe Video-Porträts

Es gibt eine andere Art von gefälschten Inhalten, die in letzter Zeit verbessert und populärer geworden ist - das Erstellen von Sound.

Im Jahr 2016 stellte Adobe Max Adobe VoCo auf der Kreativkonferenz vor: eine Audiosuite, mit der Benutzer den Nutzern mitteilen können, was sie möchten. Denken Sie daran, den Text in Sprache zu übersetzen, aber basierend auf der wahren Stimme einer Person.

Das Unternehmen behauptet, dass ein 20-minütiger Hörer VoCo erlauben wird, einen echten quellenähnlichen Gesangstrack zu veröffentlichen. Die Ausgabe wird von einem Computer generiert, auf dem die Software ausgeführt wird.

Adobe VoCo wurde seit 2016 nicht mehr wirklich gehört, wahrscheinlich nachdem die Themen Datenschutz und Datenschutz angesprochen wurden. Es wurde in einem "Ideenforum" vorgestellt, das nicht als neues Produkt angekündigt wurde. Es löste Neugierde, Aufregung und Debatte aus, erwartete aber nicht genau seine Veröffentlichung.

Jetzt, da Ideen und Technologie verfügbar sind, haben andere Unternehmen ihre eigene Soundtechnologie veröffentlicht. Lyrebird hat einen Dienst veröffentlicht, der einen "Vokal-Avatar" für Sie erstellt, der auf nur 30 Sätzen basiert (basierend auf ungefähr 20-minütigen Daten für VoCo).

Während VoCo für die Herstellung seiner Produkte lokale Computerressourcen benötigt, verwendet Lyrebird umfangreiche Cloud-Ressourcen und beschleunigt dadurch die Produktion erheblich. Lyrebird benötigt außerdem 30 spezifische Sätze gegen einen 20-minütigen grundlegenden Sprachstil, der Frustration und andere Schwächen reduzieren kann.

Audiobetrug mit DVP kann das Vertrauen erhöhen. Dies liegt daran, dass Sie nicht auf den Eindruck hören, dass jemand einen Eindruck verlieren könnte, sondern auf eine genauere Darstellung der eigenen Stimme der Zielperson.

Hybridtechnologie

FaceSwap ist ein Programm, mit dem Sie Deepfakes Face-to-Face, aber kaum das Gesicht eines anderen in Echtzeit kombinieren können. Kombiniert Deepfake und DVP.

Zusammenfassung

Diese Technologien werden sich weiter verbessern. Obwohl viele Anwendungen Spaß machen und launisch sind, hat diese Technologie einen enormen Einfluss.

Deepakes und DVP werden zweifellos unsere Sicht auf Wahrheit, Vertrauen und Privatsphäre beeinflussen. Die Diskussion über Moral, Probleme und soziale Auswirkungen (gut und schlecht) geht jedoch über den Rahmen dieses Artikels hinaus.

Bisher besteht die einzige Lösung darin, zu hinterfragen, was Sie gesehen und gehört haben.

Foto von Mikes Pexels Pictures