Wenn Sie vor wenigen Monaten ein Bild von etwas erstellen wollten, mussten Sie in der Lage sein, zu skizzieren, zu malen oder eines der Photoshopping-Tools zu verwenden, von denen andere immer wieder sprechen. Nach 2022 änderte sich jedoch alles dank KI – ja, wie in „künstlicher Intelligenz“.
Anstatt zu versuchen, die Welt zu beherrschen, können künstlerisch veranlagte KI-Tools alles, was Sie ihnen beschreiben, in ein Bild verwandeln.
Begleiten Sie uns, wenn wir in die Welt der KI-gestützten Textvisualisierung eintreten, und sehen Sie, wie Sie solche Tools verwenden können, um Ihre Gedanken in tatsächliche Bilder umzuwandeln, indem Sie einfach eingeben, was Ihnen vorschwebt.
Dall-E: Die künstlerische Seite von OpenAIs GPT-3
Die ersten KI-gestützten Tools, die populär wurden, basierten auf GPT-3 von OpenAI. Einer der Gründe war die Offenheit des Projekts für externe Zugänge, was zu einigen Vorschlägen führte GPT-3 ist die Zukunft der kreativen Arbeit.
Heute können Sie die offiziellen Tools verwenden, die Sie unter finden
Betaseite von OpenAI oder Lösungen von Drittanbietern, die sich seine sprachlichen Superkräfte zunutze machen. Beispielsweise können Sie GPT-3 bitten, einen Entwurf für einen Beitrag zu erstellen, einfache Fragen zu beantworten oder sogar einen Text zu überarbeiten oder zu übersetzen.Im Jahr 2022 enthüllte OpenAI, dass GPT-3 ebenso gut darin war, Bilder zu erstellen. Das DALL-E-Projekt, eine Anspielung auf Pixars WALL-E-Film und Dalis Namen, verwendet GPT-3 nicht für die Arbeit mit Text, sondern als Bilderzeugungs-Engine.
Genau wie bei GPT-3 und Text ist DALL-E nicht wirklich ein kreatives Genie, das Bilder aus dem Nichts materialisiert. Stattdessen wurde es mit Millionen von Bildern „trainiert“, die bereits online existieren. Seine KI-Fähigkeiten liegen darin, diese Bilder zu analysieren, Elemente daraus zu entnehmen, sie zu optimieren, zu morphen, anzupassen und sie schließlich zu neuen Bildern zu kombinieren.
Zumindest ist das eine vereinfachte Version dessen, was im Hintergrund passiert. Die meisten Leute interessieren sich nur für das, was sie vor sich sehen, und das ist ein Textfeld, in das Sie etwas eingeben können und sehen, wie es nach ein paar Minuten in ein Bild umgewandelt wird.
Googles Imagen-Antwort
Google ist einer der drei größten „Player“ in der KI-Forschung. Dennoch ist ihr Fortschritt nicht leicht wahrnehmbar, noch sind ihre Implementierungen in Produkte so zugänglich wie die Angebote von OpenAI.
Eine der ersten weit verbreiteten Implementierungen von Google AI war in Google Docs und Gmail in Form von intelligenteren automatischen Vervollständigungen und Vorschlägen, bekannt als Smart Compose. Wir werden nicht auf Details eingehen, da wir zuvor darüber berichtet haben Smart Compose (und wie Sie es verwenden können).
Wenn diese Funktionen aktiv sind, vergleichen die Web-Apps von Google die Eingaben des Benutzers mit dem, was Millionen andere in der Vergangenheit geschrieben haben. Dann schlägt es vor, was sie danach eingegeben haben.
Es ist ein Beweis dafür, dass wir trotz allem, was wir gerne glauben, nicht so verschieden sind. Wenn 99 von 100 Leuten „später“ nach „bis dann“ schreiben, würden wir das wahrscheinlich auch weiterhin eingeben.
Wir alle haben irgendeine Form der automatischen Vervollständigung verwendet, sogar aus der Zeit des T9-Texterkennungssystems der „Dumbphone“-Ära. Deshalb schienen die KI-Tools von Google nicht so intelligent zu sein wie GPT-3 von OpenAI. Sie fühlten sich nicht so viel mehr im Einsatz an wie ein besseres T9-System, das für das 21. Jahrhundert verbessert wurde. Und deshalb war Imagens Enthüllung auch ein kleiner Schock.
Wie ein DALL-E auf Steroiden ist Imagen ein Textvisualisierungstool. Basierend auf dem, was heute verfügbar ist, kann Imagen "sauberere" und lebendigere Bilder erzeugen und weiß auch, wie man mit erweiterten Funktionen wie Diffusion und Transparenz umgeht.
Leider ist der Zugriff auf Imagen zum Zeitpunkt des Schreibens noch eingeschränkt, sodass wir es nicht ausprobieren konnten.
DALL-E Mini und Freunde: Offen fürs Geschäft
Sie können auf DALL-E und Imagen noch nicht frei zugreifen. Dennoch sind bereits viele Alternativen verfügbar, wenn Sie mit der KI-gestützten Textbildgenerierung herumspielen möchten.
Wenn man bedenkt, dass dies die frühen Tage sind und die Ergebnisse oder die Benutzererfahrung, die sie bieten, möglicherweise alles andere als optimal sind, lohnt es sich dennoch, einige der folgenden Punkte zu überprüfen.
Erstellen von Memes mit Dall-E Mini
Dank einer Kombination aus mehr als adäquaten Ergebnissen und einer benutzerfreundlichen Oberfläche, aber noch wichtiger, seiner breiten Verfügbarkeit, wurde DALL-E mini zu einem der beliebtesten KI-Textvisualisierer.
Weit davon entfernt, perfekt zu sein, können die Ergebnisse des DALL-E mini manchmal abstrakter sein als beabsichtigt.
In anderen Fällen kann es sein, dass es nicht das schafft, was Sie sich vorgestellt haben, aber es kann ziemlich nahe kommen.
Nach seiner explosionsartigen Popularität zogen die Schöpfer des DALL-E mini unter neuem Branding in ein neues Zuhause. Jetzt finden Sie die neueste Version von DALL-E mini als Kreide auf einer eigenen Seite.
Die Verwendung von Craiyon ist heute so einfach wie die Online-Suche nach einem vorhandenen Bild. Sie können die Website besuchen, eine Beschreibung Ihres Bildes in das Textfeld eingeben und die Eingabetaste drücken. Nach einer Weile sehen Sie die Ergebnisse auf Ihrem Bildschirm.
Auffallend ist, wie gut Craiyon und ähnliche Tools visuelle Stile nachahmen. Zum Beispiel haben wir es gebeten, Bilder eines Welpen auf einem Skateboard heraufzubeschwören:
Dann haben wir den genauen Ausdruck verwendet, aber einen "Pixar-Stil" dahinter hinzugefügt. Nach einer Weile zeigte Craiyon ein Raster mit mehr „cartoonartigen“ Bildern, die näher an dem liegen, was wir als Raytrace-Grafiken von Pixar in ihren geliebten Filmen wahrnehmen.
Craiyon lieferte noch bessere Ergebnisse, als wir in derselben Eingabeaufforderung „Pixar-Stil“ durch „Anime-Stil“ ersetzten.
Anime ist in seinem Erscheinungsbild stilisierter als die realistischere Bildsprache von Pixar, was Craiyon anscheinend geholfen hat, einige fast gebrauchsfertige Bilder zu produzieren.
Herumalbern mit latenter Diffusion
Das auf dem LAION-400M-Datensatz trainierte Latent-Diffusion-Modell ist ein weiterer interessanter KI-Textvisualisierer. Es ist jedoch auch komplizierter in der Verwendung. Sie müssen es online in einer virtuellen Maschine ausführen und mit seinen verschiedenen Parametern spielen, anstatt nur ein Textfeld einzugeben. Trotzdem ist es einfacher, als es sich anhört.
- Besuche den Google Latent Diffusion Colab Space das ist derzeit sein Zuhause.
- Scrollen Sie etwas nach unten und beachten Sie die Prompt Feld darunter Parameter. Ersetzen Sie die Standardaufforderung durch das, was Ihr Bild darstellen soll.
- Wählen Alle ausführen von dem Laufzeit Menü oder drücken Sie STRG + F9.
- Wenn Sie die produzierten Bilder direkt aus dem Tool exportieren möchten, antworten Sie positiv auf die Frage, ob Sie es mit Ihrem Google Drive-Konto verknüpfen möchten. Das Tool braucht eine Weile, um seine Konfiguration abzuschließen, und muss während des Vorgangs einige Dateien herunterladen.
Erhöhen der Werte für Schritte, Iterationen, und Samples_in_parallel, kann zu detaillierteren Ergebnissen führen. Das Tool ist jedoch äußerst ressourcenintensiv auf den Servern von Google. Infolgedessen kann es abstürzen, wenn Sie diese Werte zu stark erhöhen, oder der Prozess zum Erstellen eines bestimmten Bildes wird komplizierter als erwartet.
Interessante Alternativen
Wir haben viel Zeit damit verbracht, DALL-E mini und Latent Diffusion zu testen. Unsere wissenschaftliche Methode bestand aus zwei verschiedenen Teilen. Zuerst mussten wir Konzepte entwickeln, die genau als verrückt beschrieben werden können. Bitten Sie dann diese KI-Visualisierer, sie in Bilder umzuwandeln. Häufiger als erwartet gelang es ihnen, dem allgemeinen Aufbau, den wir uns vorgestellt hatten, nahe zu kommen.
Wir haben auch einige der verfügbaren Alternativen für diesen Artikel ausprobiert. Wir warten immer noch auf den Zugang zu anderen. Einige der sehenswerten sind (in keiner bestimmten Reihenfolge):
- Zwischendurch
- MindsEye-Betaversion
- StarryAI
- Traum
- Disco-Diffusion
Wird KI-generierte Kunst die bildende Kunst ersetzen?
Die Fülle und die ständig wachsende Popularität von bildgenerierenden KI-gestützten Werkzeugen lassen viele zu dem Schluss kommen, dass die bildende Kunst bald sterben wird. Was bringt es, Zeit und Energie zu investieren, um zu lernen, wie man zeichnet oder komplizierte Software verwendet, um Dinge zu visualisieren, wenn eine KI dies schneller (und bald besser) als Sie kann?
Wie Sie bemerkt haben, sind diese Tools alle „auf Datensätzen trainiert“. Im Klartext bedeutet dies, dass sie das tun, was sie tun, weil Menschen das Gleiche schon einmal getan haben.
Das ist der Hinweis darauf, warum diese Werkzeuge menschliche Kunstfertigkeit, Kreativität und Einfallsreichtum nicht ersetzen können. Sie sind Nachahmer, intelligente Replikatoren. Ohne die von Menschenhand hergestellten Originale, an denen sie geschult sind, könnten sie keine Ergebnisse erzielen.
Aber das ist das Jetzt, und wir geben zu, dass wir nicht wissen, was die Zukunft bringt. Im Moment können bildende Künstler sicher schlafen. Bei der Geschwindigkeit, mit der sich die KI weiterentwickelt, sind sich viele Spezialisten zu diesem Thema einig, dass es nicht darum geht, ob sie jemals die Arbeit von Menschen wie der Ihren ersetzen wird. Es ist nur eine Frage des wann.
Aber hey, es ist nicht alles Untergangsstimmung. Während Skynet sich darauf vorbereitet, unsere Jobs anzunehmen, können wir zumindest unsere Stimmung aufhellen, indem wir mühelos Bilder von Welpen auf Skateboards erstellen!