Künstliche Intelligenz

DALL-E 3 könnte die KI-Bilderzeugung auf die nächste Stufe heben

DALL-E 3 könnte die KI-Bilderzeugung auf die nächste Stufe hebenOpenAI

Laut Decoder bereitet OpenAI möglicherweise die nächste Version seines DALL-E AI-Text-zu-Bild-Generators mit einer Reihe von Alpha-Tests vor, die nun der Öffentlichkeit zugänglich gemacht wurden.

Ein anonymer Leaker auf Discord teilte Details über seine Erfahrungen mit, als er Zugriff auf das kommende OpenAI-Image-Modell mit der Bezeichnung DALL-E 3 hatte. Er erschien erstmals im Mai und teilte dem interessenbasierten Discord-Kanal mit, dass er an einem Alpha-Test teilnahm OpenAI testet ein neues KI-Bildmodell. Er teilte die Bilder, die er damals erzeugte.

Eine so gute Bilderzeugung haben wir NOCH NIE gesehen! | SNEAK PEAK

Die Alpha-Testversion vom Mai hatte die Möglichkeit, Bilder mit mehreren Seitenverhältnissen innerhalb des Bildmodells zu generieren. YouTuber MattVidPro AI präsentierte dann mehrere der Bilder, die im Seitenverhältnis 16:9 erstellt wurden. Diese Version zeigte auch die Fähigkeit des Modells zur qualitativ hochwertigen Textproduktion, die für Konkurrenzmodelle weiterhin ein Problem darstellt, selbst für Top-Generatoren wie Stable Diffusion und Midjourney.

DALL-E 3 könnte die KI-Bilderzeugung auf die nächste Stufe heben

Einige Beispiele zeigten Bilder, wie zum Beispiel in eine Ziegelwand eingearbeiteten Text, eine Leuchtreklame mit Wörtern, ein Plakatschild in einer Stadt, eine Kuchendekoration und einen in einen Berg eingravierten Namen. Das Modell geht davon aus, dass DALL-E gut darin ist, Menschen zu generieren. Ein solches Bild zeigte eine Frau, die auf einer Party Spaghetti isst, aus der Fischaugenperspektive.

Der Leaker kehrte Mitte Juli mit weiteren Details und neuen Bildern zum Discord-Kanal zurück. Er behauptete, Teil einer „Closed Alpha“-Testversion zu sein, an der etwa 400 Probanden teilnahmen. Er fügte hinzu, dass er per E-Mail zum Test eingeladen und auch in die Tests des ursprünglichen DALL-E und DALL-E 2 einbezogen worden sei. Dies führte jedoch zu der Schlussfolgerung, dass der Alpha-Test möglicherweise für DALL-E 3 gilt es wurde nicht bestätigt.

LESEN  Das Rekordwachstum von ChatGPT wurde gerade von einer neuen viralen App übertroffen

OpenAI Dall-E 3 Alpha-Testversionsbild.

OpenAI Dall-E 3 Alpha-Testversionsbild.

Das Modell wurde zwischen Mai und Juli erheblich aktualisiert. Der Leaker hat dies demonstriert, indem er Bilder geteilt hat, die auf der Grundlage derselben Eingabeaufforderung erstellt wurden und zeigt, wie leistungsstark DALL-E 3 im Laufe der Zeit geworden ist. Die Eingabeaufforderung lautet a Gemälde eines rosa Narren, der einem Panda während eines Radwettbewerbs ein High Five gibt. Die Fahrräder bestehen aus Käse und der Boden ist sehr schlammig. Sie fahren durch einen nebligen Wald. Der Panda ist wütend.

Die Mai-Alpha erzeugt die allgemeine Szene, die die meisten Punkte der Aufforderung trifft. Es gibt eine leichte Verzerrung bei den Händen, die sich verbinden, und die Räder der Fahrräder sind gelb und nicht aus Käse. Die Juli-Alpha ist jedoch weitaus detaillierter, da der rosa Narr und der Panda eindeutig High-Five machen und die Fahrradräder in mehreren Generationen aus Käse bestehen.

Währenddessen fehlt in Midjourney der Narr von der Szene, die Pandas sind auf Motorrädern statt auf Fahrrädern unterwegs. Es gibt Straßen statt Schlamm. Die Pandas sind glücklich statt wütend.

Es gibt zahlreiche Beispiele für DALL-E-Alphabilder vom 3. Juli, die das Potenzial des Modells zeigen. Da der Alpha-Test jedoch unzensiert sei, könne es laut dem Leaker auch zu Szenen mit „Gewalt und Nacktheit oder urheberrechtlich geschütztem Material wie Firmenlogos“ kommen.

Einige Beispiele sind ein blutiges Anime-Mädchen, a Game of Thrones Charakter, a Grand Theft Auto V Cover, ein Zombie-Jesus, der ein Subway-Sandwich isst, was ebenfalls auf leichtes Blut hindeutet, und unter anderem Shrek, der bei einer archäologischen Ausgrabung ausgegraben wird.

MattVidPro AI stellte fest, dass das Bildmodell Bilder so generiert, als ob sie einen bestimmten Stil haben sollten.

LESEN  Apple schlägt Microsoft mit seinen eigenen Waffen

DALL-E 2 wurde im April 2022 eingeführt, war jedoch aufgrund seiner Beliebtheit und Bedenken hinsichtlich Ethik und Sicherheit stark reguliert und verfügte über eine Warteliste. Der KI-Bildgenerator wurde im September 2022 der Öffentlichkeit zugänglich gemacht.

Ähnliche Artikel

Schaltfläche "Zurück zum Anfang"