🎨 Text to Image AIs

Künstlich generiert und
überraschend hübsch

Langer Donnerstag | Oktober 2022
Nicolai Schwarz | @textformer

Rund um Midjourney, DALL-E 2 & Stable Diffusion
Kommentierte Fassung

Du navigierst mit den Pfeil-Tasten →
Die Präsentation ist für Desktop-Bildschirme gedacht,
es gibt keine responsive Version.

Worum geht’s?

Text to Image AIs

In den letzten Jahren wurden eine Menge spezialisierter AIs / KIs vorgestellt, die zum Beispiel Tausende von Gesichtern generieren konnten. Über den Sommer 2022 gab es allerdings einen Quantensprung bei den Ergebnissen. Neue Tools wie Midjourney, DALL-E 2 und Stable Diffusion können in einem breiten Spektrum von Motiven und Stilen überraschend hübsche Bilder generieren.

Dabei gibt der Nutzer einen Text in natürlicher Sprache vor, etwa A lighthouse on the coast, und erhält ein paar Sekunden später ein generiertes Bild, das im besten Fall nicht nur den Text abbildet, sondern auch noch realistisch und/oder künstlerisch ansprechend aussieht.

Die folgenden Folien enthalten jede Menge Links zum Einstieg ins Thema. Für neue interessante Entwicklungen könnt ihr z.B. den beiden YouTube-Kanälen rechts folgen.

YouTube: Olivio Sarikas ↪

YouTube: Samson Vowles ↪

Nicolai Schwarz, @textformer
Designer & Webentwickler aus Dortmund,
textformer.de

Frontend-Entwicklung
Drupal, Backdrop CMS

Autor fürs PC Magazin,
ehemals Redakteur bei der Screenguide

Kleiner Überblick, was Midjourney so generieren kann.

Ablauf

Intro

Midjourney

AI Magic (Wie funktioniert das?)

DALL-E 2

Stable Diffusion / Google Colab

Tool Pipeline

Recht & Ethik

Aus der Praxis

Ausblick (überall AIs)

Intro

Computer-generierte Kunst existiert bereits seit Ende der 1960er Jahre. Teilweise mit selbst geschriebenen Programmen oder mit Frameworks wie z.B. Processing – oder in den letzten Jahren verstärkt über spezialisierte KIs, die zum Beispiel ein Kunstwerk auf Basis der Bilder von Rembrandt (van Rijn) erschaffen.

Es folgen ein paar Beispiele. Darunter einige sehr simple, die ich selbst mit Processing erstellt habe, und ein paar ausgefeiltere Werke von echten Künstlern.

Processing ↪

OpenProcessing: Community of Creative Coders ↪

Generatives Design beim Langen Donnerstag (2019) ↪

Generative Art, Processing, simples Beispiel von mir; eine einfache Linie in wechselnden Farben, mit schwankendem Mittelpunkt

Gyre 35700, a generative art work by Mark Stock ↪

Étienne Jacob’s version in processing — Étienne Jacob’s Looping Noise in Processing ↪

Deep Dream Example — Googles Deep Dream (ab 2015) ↪ ↪

The next Rembrandt — The Next Rembrandt (2016) ↪ ↪

Midjourney

Für Midjourney benötigt ihr aktuell einen Account bei Discord (gibt es kostenlos). Nach der Anmeldung bei Discord klickt ihr bei midjourney.com auf den Button Join the beta, verknüpft die beiden Plattformen und könnt dann auf Discord dem Server Midjourney beitreten (über das Segelschiff-Icon in der linken Spalte).

Im Kanal getting started (in der zweiten Spalte) gibt es eine kurze Erklärung. Danach könnt ihr in einem der Newbie-Kanäle selbst Prompts ausprobieren. Allerdings habt ihr nur 25 Aktionen frei. Danach müsst ihr ein Abo abschließen.

Wenn ihr in einem der Newbie-Kanäle unterwegs seid, achtet auch eine dünne orangene Linie an der linken Seite der Nachrichten. Dieser Strich markiert eure generierten Bilder.

Lest euch im User Manual durch, was alles mit den Parametern möglich ist.

Midjourney arbeitet übrigens daran, alles über die eigene Website laufen zu lassen, aber aktuell geht es nur über Discord.

Art in the Far Future — Beispiel für die Unterschiede bei den Upscaling-Optionen. Hier möchte ich das Bild oben rechts vergrößern.

AI Magic

Die technische Erklärung wird schnell kompliziert, wenn man es genau wissen will. Im Wesentlichen reicht es zu wissen, dass die verschiedenen KIs mit Millionen von Bildern trainiert werden. Neue Bilder werden nicht aus vorhandenen zusammenkopiert, sondern komplett neu erstellt. Da die verschiedenen Modelle unterschiedlich trainiert wurden, entstehen auch unterschiedliche Bilder. Wenn eine KI nur mit Landschaften trainiert wurde, kann sie eben auch nur Landschaften generieren.

Die beste Erklärung für Einsteiger bietet ein Video von Vox (nächste Seite).

The AI that creates any picture you want, explained ↪

Mixed Ideas — Prompt: Dog sitting on a turtle. Hier kann Midjourney zwar Teile von einem Hund und einer Schildkröte generieren, weiß aber nicht, was ich eigentlich möchte.

DALL-E 2

DALL-E (2) könnt ihr mittlerweile auch kostenlos testen. Ihr erhaltet hier 15 Credits pro Monat. Danach zahlt ihr derzeit 15 US-Dollar für 115 Credits. Auch hier empfiehlt es sich, mit einigen Prompts zu experimentieren. In der Regel erzielt ihr mit Midjourney schneller hübsche Ergebnisse. In DALL-E 2 muss man sich stärker einarbeiten.

Eine Besonderheit ist das In/Outpainting, das ihr über euer User Icon in der rechten, oberen Ecke erreicht. Hier benutzt ihr die KI, um ein Bild zu erweitern oder Elemente aus dem Bild auszutauschen. Wenn euch etwa ein Detail in einem generierten Bild nicht gefällt, könnt ihr das Bild hochladen und das Element mit dem Radiergummi entfernen. DALL-E 2 ersetzt diesen Part nun selbstständig und bietet euch wieder vier Ergebnisse.

Und ja, der Name ist ein Kofferwort aus Salvador Dalí und dem Trickfilm WALL-E.

Stable Diffusion / Google Colab

Mit Stable Diffusion gibt es eine kostenlose Open-Source-Alternative zu Midjourney und DALL-E 2. (Tatsächlich gibt es mehrere Alternativen und Varianten. Wir bleiben hier bei Stable Diffusion.)

Ihr könnt Stable Diffusion entweder auf eurem Rechner installieren – oder ihr nutzt Google Colab als Alternative. Google Colab könnt ihr kostenlos ausprobieren. Ihr nutzt dort vorbereitete Programme anderer Programmierer (sogenannte Notebooks) und könnt mit eigenen Prompts und Bildern Versuche starten. Der Vorteil ist, dass ihr jede Menge Parameter habt, mit denen ihr rumspielen könnt. Der Code läuft bei Google, ihr erhaltet die Ergebnisse in eurem Browser.

Bei jedem Notebooks solltet ihr die Anleitung oben lesen. Manchmal ist es nötig, andere Elemente herunterzuladen und in eurem Google Drive zu hinterlegen.

In jedem Fall empfiehlt es sich, gleich auch einen Account bei Hugging Face anzulegen (auch kostenlos), denn dort erhaltet ihr die Modelle für Stable Diffusion.

Neben Stable Diffusion gibt es Hunderte anderer interessanter Programme, die ihr schnell mit Google Colab ausprobieren könnt.

Stable Diffusion Web UI

Für die Techniker bietet es sich an, die Stable Diffusion Web UI auf dem eigenen Rechner zu installieren. Dafür braucht man einen modernen Rechner mit guter Grafikkarte. Ihr solltet euch mit Git auskennen, und folgt dann der Anleitung auf GitHub.

Der Vorteil an diesem Paket ist, dass es zum einen Stable Diffusion um eine GUI ergänzt und zum anderen viele interessante Programme bereits integriert wurden, zum Beispiel Upscaler, Inpainting, Outpainting und Tools, die Gesichter reparieren.

Gothic Girl, generiert in Midjourney, leider stimmen Nase und Mund nicht ganz

Gothic Girl, überarbeitet mit der CodeFormer Inference Demo via Google Colab

Tool Pipeline

Wie bei dem Gothic Girl gesehen, gibt es keinen Grund, sich mit einem Tool zu begnügen. Ihr könnt problemlos einige spezialisierte Tools aneinanderreihen. Oder natürlich Bilder in PhotoShop nachbearbeiten. Oder mit After Effects animieren.

Upscaling z.B. mit Gigapixel AI ↪ (es gibt hier zahlreiche Alternativen)
Lichtquellen setzen mit Relight ↪
Statische Bilder sprechen lassen z.B. mit D-ID ↪
D-ID-Beispiel auf Instagram ↪
Animierte Bilder z.B. mit Motionleap ↪
Video: Tips for INSANE Dimensionality using Motionleap & Midjourney (english) ↪

Recht & Ethik

Kein Copyright für »A Recent Entrance to Paradise« von Steven Thaler / Creativity Machine (Feb 2022) ↪

Comicseite — Copyright für »Zarya of the Dawn« von Kris Kashtanova / Midjourney (Sep 2022) ↪

Was ist mit Persönlichkeitsrechten? luna god (Chris Hemsworth) final fantasy … ↪ + Pompeii fresco of Emma Watson … ↪

Was ist mit Persönlichkeitsrechten? luna god (Chris Hemsworth) final fantasy … ↪ + Pompeii fresco of Emma Watson … ↪

Recht & Ethik

Aktueller Stand: Jede Menge Probleme, aber keine Lösungen in Sicht.

Insbesondere stellt sich die Frage, ob es ein Copyright auf KI generierte Bilder geben kann? Bzw. welchen Anteil ein Mensch am Ergebnis haben muss, um ein Copyright zu rechtfertigen? Bilder ohne Copyright könnte man natürlich einfach so nutzen, und muss sie nicht extra bei einer Bilddatenbank einkaufen.

Das größere Problem haben Künstler, deren Bilder ungefragt genutzt werden, um die KI-Modelle zu trainieren.

Hier wird man vermutlich einige Klagen abwarten müssen.

Aus der Praxis

Ich kenne kein Beispiel für eine sinnvolle Kampagne, die auf KI generierten Bildern basiert. Aktuell probieren nur viele Leute und Agenturen aus, was vielleicht damit möglich sein wird. Animierte Videos, Ideen für Logos, eine Basis für Plakate …

In manchen Bereichen eignen sich die generierten Bilder aber bereits für den Einsatz: Für private Sessions von Rollenspielern, für Mood-Bilder in der Konzeptionsphase von Videospielen, für kleine Blogs und Magazine, für Kapitel in einem Vortrag – wenn das Bild eher eine Stimmung vermitteln soll und nicht perfekt sein muss.

Ausblick

Neben Text-to-Image Tools gibt es immer häufiger Anbieter, die sich auf Nischen wie zum Beispiel Marketing oder Storytelling spezialisiert haben. Demnächst mag es Bestseller geben, die zu 80% von einer KI geschrieben wurden.

Die großen IT-Unternehmen wollen den Trend natürlich nicht verpassen. Microsoft wird DALL-E 2 zumindest in Teilen in seine Office Suite integrieren.

Und während Text-to-Image noch gar nicht bei allen angekommen ist, steht Text-to-Video bereits in der Startlöchern. Noch mit eher amüsanten Ergebnissen. Aber das kann sich sehr schnell ändern.

Generated Faces and Humans ↪
Neuroflash ↪
Novel AI ↪ ↪
Omnekey ↪ ↪
UIzard ↪
Microsoft Designer ↪
Make-A-Video (Meta) ↪
Imagen (Google) ↪

Nicht zu vergessen: Der Platzhirsch PhotoShop hat natürlich auch einige KI Features an Bord.

Die neue Version bietet demnächst sogar In- und Outpainting (im Video ab etwa 1:30).

Künstlich generiert und überraschend hübsch

Text to Image AIs

Ablauf

Intro

Intro

Midjourney

Midjourney

AI Magic

AI Magic

DALL-E 2

DALL-E 2

Stable Diffusion / Google Colab

Stable Diffusion / Google Colab

Stable Diffusion Web UI

Tool Pipeline

Tool Pipeline

Recht & Ethik

Recht & Ethik

Aus der Praxis

Aus der Praxis

Ausblick

Ausblick

Künstlich generiert und
überraschend hübsch