Vom Foto zum animierten Video: So geht's mit EMO

Juli Rutsch

02.05.2024 - 07:00

Alibaba hat mit EMO eine KI entwickelt, die aus einem einzigen Porträtfoto realistisch animierte Videos erstellen kann.

links ein Foto rechts Videoausschnitt Frau Lippenstift — Aus dem Porträtfoto der Frau links im Bild hat die KI Emo ein Sprechvideo erzeugt. - humanaigc.github.io

Forscher am Institute for Intelligent Computing von Alibaba haben ein neues künstliches Intelligenzsystem namens «EMO» erschaffen. Dieses steht kurz für «Emote Portrait Alive».

Dieses kann ein einzelnes Porträtfoto animieren und Videos einer sprechenden oder singenden Person auf bemerkenswert lebensechte Weise erstellen.

Just in 👀

this is the most amazing audio2video I have ever seen.
It is called EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu
— Stelfie the Time Traveller (@StelfieTT) February 28, 2024

Die Technologie ist in einer wissenschaftlichen Arbeit auf ArXiv beschrieben und stellt einen bedeutenden Fortschritt im Bereich der audiogetriebenen Videogenerierung dar. Ein Feld, das KI-Forscher seit Jahren fasziniert.

EMO fängt jede Nuance ein

Linrui Tian, Hauptautor der Studie, erklärt, dass traditionelle Methoden oft an der Erfassung des gesamten Spektrums menschlicher Ausdrücke und individueller Gesichtsstile scheitern. Die Antwort seines Teams auf diese Herausforderungen lautet deshalb: EMO.

Eine revolutionäre Plattform, die Audio direkt in Video umwandelt. Der Clou dabei? Es wird kein Zwischenschritt über 3-D-Modelle oder Gesichtsmarkierungen benötigt.

Wie funktioniert EMO?

EMO nutzt dafür eine sogenannte Diffusionsmodelltechnik, ein Verfahren zur Erzeugung realitätsnaher synthetischer Bilder.

Für die Entwicklung wurde das Modell mit mehr als 250 Stunden Material trainiert: bestehend aus Reden, Filmen, TV-Shows und Gesangsdarbietungen.

Von der Tonspur zum Video

Im Gegensatz zu bisherigen Methoden, die auf 3-D-Gesichtsmodellen oder Mischformen zur Annäherung an Gesichtsbewegungen angewiesen waren, wandelt EMO Audiosignale direkt in Videobilder um. Dadurch kann es feinste Bewegungsabläufe und individuelle Eigenheiten im natürlichen Sprachverlauf erfassen.

Laut den in der Studie beschriebenen Experimenten übertrifft EMO bestehende Verfahren bei Messgrössen wie Videoqualität, Identitätserhalt und Ausdrucksfähigkeit deutlich. Eine Nutzerstudie ergab zudem, dass die von EMO generierten Videos natürlicher und emotionaler wirken als die anderer Systeme.

Mehr als nur Sprechvideos

Aber das ist noch nicht alles. Neben sprechenden Porträts kann EMO auch singende Gesichter animieren: mit passenden Mundbewegungen und ausdrucksvollen Mimiken synchronisiert zur Musik.

Die Dauer des erstellten Videos richtet sich dabei ganz nach der Länge des eingegebenen Audiomaterials. Dabei schneidet ihre Technologie hinsichtlich Ausdruckskraft und Realismus deutlich besser ab als bisherige Ansätze.

Zukunftsmusik

Die Forschungsergebnisse von EMO lassen auf eine Zukunft hoffen, in der personalisierter Videocontent aus nur einem Foto und einer Audiodatei erstellt werden kann.

EMO ermöglicht die Erfassung subtiler Bewegungen und identitätsspezifischer Eigenheiten, die mit natürlicher Sprache verbunden sind. - humanaigc.github.io

Doch es bleiben ethische Bedenken: Die Technologie könnte missbraucht werden, um Personen ohne deren Einverständnis zu imitieren oder Falschinformationen zu verbreiten. Sprichtwort: Deepfakes.

Deshalb planen die Forscher, Methoden zur Erkennung synthetischer Videos zu erforschen.