Alles hat begonnen mit einem Hundefilter bei Snapchat, welchen wir über unser Gesicht legen können, dann konnten wir mit der Face App sehen, wie wir in 40 Jahren aussehen könnten und jetzt gibt es Apps, wo wir Gesichter von Promis auf unsere Videos legen können. Doch das war längst noch nicht alles. Dank neuster Technologien kann man einfach alte Schwarzweißbilder kolorieren, Eminem Gedichte von Goethe rappen lassen, Gesichter von Menschen generieren lassen die nicht existieren oder Putin TikTok-Tänze machen lassen, die er nie gemacht hat. Das letztere nicht echt sind, erkennen wir oft schnell. Doch was ist, wenn wir das nicht mehr unterscheiden können? Welchen Medien können wir dann noch vertrauen und wie können wir Deepfakes erkennen? Wie weit Videomanipulationen heute schon sind und wie sie unsere Zukunft maßgeblich verändern könnten, besprechen wir in dieser neuen Folge des UpToDate-Podcast, dein Podcast zu aktuellen Themen aus unserer digitalen Welt.
Um die Grundlagen zu klären: Was sind Deepfakes überhaupt und wie kommen sie zustande? Kurz gesagt Deepfakes sind Bild-, Video oder Audiomanipulationen, welche mithilfe von künstlicher Intelligenz schon heute auf ein Level gehoben werden können, dass man ihre Unechtheit mit dem bloßen menschlichen Auge oder Gehör teilweise nicht mehr wirklich erkennen kann. Wie das möglich ist? Ganz einfach gesagt, wird hier eine KI mit sehr vielen Daten, also Bildern, Videomaterial oder Audios gefüttert von einer Person, welche dann von der KI analysiert wird und sie diese Daten dann als Grundlage nutzen kann um daraus erfundene Szenarien zu generieren. So passiert es, das es auf YouTube Videos gibt, wo Kanye West sich bei Taylor Swift rappend entschuldigt oder auch Politiker in Videos Dinge sagen, was sie eigentlich nie getan haben. Die meisten Deepfakes von heute, besonders in Videoform, was die Königsdisziplin ist, können wir mit dem bloßen Auge meisten noch als Unecht erkennen. Das liegt daran, dass Menschen so viele minimale Gesichtszüge und Bewegungen haben, welche wir unterbewusst als Validierung nutzen und wir sehr schnell merken, ob ein Mensch echt ist oder nicht. Das erkennt man auch an Videospielen, wo Landschaften schon wie die Realität aussehen aber Charaktere direkt als unecht auffallen. Doch schlussendlich ist es nur noch eine Frage der Zeit, bis unsere KIs soweit entwickelt sind, dass diese ersten so viele Daten als Grundlage haben und zweitens die nötige Rechenpower, um Deepfakes erstellen zu können, welche wir dann nicht mehr unterscheiden können. Das haben wir im Bereich von Bilder sogar schon erreicht und bei Audios sind wir auch schon sehr nah dran. Was zwar keine komplexen Deepfakes sind aber heute schon möglich und mega faszinieren, die Aufwertung von alten Bildern und Videos. Schon vor drei Jahren hat Google angekündigt eine Kolerierungsfunktion in ihrem Foto-Dienst Google Fotos einzuführen, womit man einfach alte Schwarzweißbilder mit einem Mausklick in Farbbilder umwandeln kann. Das ist vom Prinzip sehr ähnlich wie Deepfakes. Eine KI hat anhand von Schwarzweiß und Farbigen Beispielbildern erlernt, wie Farben in einem Schwarzweißbild angezeigt werden und kann so diese auch andersherum rekonstruieren und die Farben sehr akkurat an den Graustufen und Co. wiederherstellen. Sowas ist inzwischen auch mit altem Videomaterial möglich, wo auch die Videoqualität durch KI verbessert werden kann, was im Vergleich zu einzelnen Bildern ein enormer Fortschritt und Aufwand ist.
Neben der Restaurierung von bestehendem Material kann man dank KI sich auch menschliche Porträts generieren lassen, von Personen die gar nicht existieren. Klingt verrückt? Dann probiers doch selber aus. Das geht einfach auf der Seite thispersondoesnotexist.com – Hier hat der Grafikkarten Hersteller Nvidia, welcher vorne mit dabei ist bei dieser Art von KI Entwicklung in Zusammenarbeit mit der Cornell University eine KI entwickelt, welche menschliche Gesichter so intensiv analysiert hat, dass es neue Bilder Pixel für Pixel selber in kürzester generieren lassen kann, ohne als Grundlage bestehende Bilder zu verwenden, was die Personen zu 100 % unecht macht. Spielt man das als Gedankenspiel weiter ist es nur noch eine Frage der Zeit bis man auch menschliche Bewegungen, welche natürlich tausendfach komplexer sind als ein einzelnes Gesichtsfoto komplett generieren lassen kann. Das wären Deepfakes auf dem maximalen Level.
Bei Audios sind wir schon kurz vor dem Durchbruch. Wir erkennen zwar Sprachassistenten immer noch an ihren Betonungen, aber wenn man diese mit Sprachassistenten von vor paar Jahren vergleicht sehen wir was für Fortschritte hier in kürzester Zeit gemacht wurden. So wie bei Bildern und Videos können wir aber auch eine KI mit vorhandenen Audios trainieren und dann mit dieser Stimme eigene Texte generieren lassen. Sowas wurde mit prominenten Musiker*innen beispielsweise schon gemacht und es gibt auch schon Tools wie Descript, mit welchen man eine KI mit seiner eigenen Stimme trainieren kann und diese dann in englischer Sprache Texte vertonen kann. Hier ist es auch nur noch eine Frage der Zeit bis wir hier keinen wesentlichen Unterschied mehr hören können.
Jetzt ist die Frage natürlich noch, wie können wir solche Manipulationen in Zukunft erkennen? Weil wenn sie so realistisch sind, dass man sie auf den ersten Blick nicht mehr unterscheiden kann, wird es schwierig sie als Beweismittel zu nutzen oder generell diesen zu vertrauen. Generell würde das vermutlich eine Reihe von Problemen mit sich bringen, dessen Ausmaß wir jetzt noch gar nicht fassen könnten. Doch hier gibt es auch Hoffnung am Horizont. Eines der größten Software Unternehmen: Adobe, welche selbst diesen Herbst in ihrer Bildbearbeitungssoftware Photoshop KI basierte neuronale Filter hinzugefügt haben, arbeiten schon seit mehreren Jahren an einer Lösung, welche bearbeitete Bilder erkennen soll. Hier wird sich schon auf ein bestehendes Prinzip gestützt nämlich die Metadaten, welche schon heute automatisch in Bildern hinterlegt sind, wo man Informationen wie den Aufnahmeort, Kamera oder Fotografen findet. In diesen Metadaten sollen dann auch kryptisch Bildbearbeitungen bzw. Manipulationen gespeichert werden, welche nachträglich nicht mehr verändert oder entfernt werden können. So könnte man immer überprüfen, ob das aktuelle Medium verfälscht wurde. Das solche Software-Entwicklungen in Zukunft gefördert werden und in viele Plattformen, wie Social-Media-Anbieter integriert werden könnte, ist super realistisch und man so Inhalte vielleicht durch eine kleine Kennzeichnung direkt auf Echtheit einschätzen kann. Irgendwo liegt es ja im Interesse der meisten, die Wahrheit von Medien zu gewährleisten.
Das sich bei dieser Thematik in den nächsten Jahren aber sicherlich noch viel verändern wird, ist klar. Was denkst du über das Thema? War dir bewusst wie weit wir schon mit solchen Sachen sind? Schick mir gerne eine Sprachnachricht auf anchor.fm/uptodate und lass und gemeinsam darüber diskutieren. Teile diese Podcast-Folge gerne mit deinen Freunden, wenn sie auch über die Thematik informiert werden sollen.
Quellen: thispersondoesnotexist.com, www.faz.net/aktuell/wirtschaft/digitec/wie-adobe-bildfaelschungen-nachweisen-will-fake-news-auf-der-spur-17011424.html, blog.google/products/photos