DALL-E 3 könnte die KI-Bildgenerierung revolutionieren

Juli Rutsch

15.12.2023 - 15:56

OpenAI bereitet sich wohl auf den nächsten grossen Durchbruch vor. Details über den KI-gesteuerten Bildgenerator DALL-E 3 sind kürzlich durchgesickert.

Ein Astronaut sitzt auf einem weißen Schimmel. — Die neue Version von DALL-E 3 könnte die Welt der Bildgeneratoren weiter vorantreiben. - OpenAI

Die neue sogenannte «Alpha-Version» des neuen Modells namens DALL-E 3 verspricht eine bahnbrechende Weiterentwicklung. Dieses Gerücht stammt von einem anonymen Informanten auf Discord.

Er behauptet, Zugang zu diesem noch nicht veröffentlichten Modell gehabt zu haben. Seine ersten Enthüllungen datieren bereits aus dem Mai dieses Jahres.

Sensationelle Bilder aus dem Maschinenhirn

In dieser frühen Phase konnte das neue Modell offenbar schon beeindruckend vielseitige Bilder generieren. Sogar mit unterschiedlichen Seitenverhältnissen innerhalb eines einzigen Bildes.

Ein Beispiel dafür ist ein Video des YouTubers MattVidPro AI, welcher mehrere solcher Bilder präsentierte. Aber nicht nur die Vielfalt der erzeugten Bilder war bemerkenswert.

The Best AI Art yet

Auch die Qualität des Textoutputs wurde gelobt – ein Aspekt, bei dem viele konkurrierende Modelle immer noch Schwierigkeiten haben.

Kreativität ohne Grenzen: Von Neon-Schildern bis hin zur Geburtstagskuchen-Deko

Zu den vom Informanten geteilten Beispielen zählten unter anderem ein Text, der nahtlos in eine Ziegelwand integriert war. Ein Neon-Schild mit Worten, ein Stadtbillboard, eine Kuchendekoration und sogar ein Name, der in einen Berg eingraviert war.

Besonders beeindruckend: Das Modell schien auch Menschen sehr realistisch darstellen zu können. Im Juli tauchte der Informant erneut auf Discord auf.

Diesmal mit weiteren Details und neuen Bildern. Er behauptete nun, Teil einer «geschlossenen Alpha» gewesen zu sein und Zugang zu rund 400 verschiedenen Themen gehabt zu haben.

Von Käse-Rädern bis hin zum wütenden Panda

Zwischen Mai und Juli scheint das Modell deutlich verbessert worden zu sein. Dies wurde durch den Vergleich von Bildern deutlich, die basierend auf demselben Textprompt generiert wurden.

Der Prompt lautete: «Ein Gemälde eines pinkfarbenen Hofnarren gibt einem Panda ein High Five während eines Fahrradrennens. Die Fahrräder sind aus Käse gemacht und der Boden ist sehr matschig.»

Ein Pandabär auf einem Fahrrad gibt einem Joker ebenfalls auf einem Fahrrad ein High-Five. — So sah ein Beispielbild der neuen Version von DALL-E 3 noch im Mai aus. - Discord

Die Bilder zeigten eindrücklich die Fortschritte des Modells:

Auf Fahrrädern geben sich ein Pandabär und ein Joker ein High-Five. — Im Sommer sieht man deutlich die Optimierungen von DALL-E 3. - Discord

Während im Mai noch einige Unstimmigkeiten auffielen (zum Beispiel waren die Räder gelb anstatt aus Käse), konnte man im Juli bereits alle Aspekte des Prompts klar erkennen.

Aber Vorsicht! Nicht alles was glänzt, ist Gold

Trotz aller Begeisterung für das Potenzial von DALL-E 3 gibt es auch Bedenken. Da die Alpha-Tests unzensiert waren, besteht das Risiko, dass das Modell auch Szenen von Gewalt oder Nacktheit generieren könnte.

Oder urheberrechtlich geschütztes Material wie Firmenlogos. Trotzdem bleibt die Vorfreude auf DALL-E 3 gross.

Nach dem Erfolg der Vorgängermodelle DALL-E und DALL-E 2 kann man gespannt sein, was OpenAI mit dieser neuen Version erreichen wird!