Künstlich generiert und
überraschend hübsch
Langer Donnerstag | Oktober 2022
Nicolai Schwarz | @textformer
Rund um Midjourney, DALL-E 2 & Stable Diffusion
Kommentierte Fassung
Du navigierst mit den Pfeil-Tasten →
Die Präsentation ist für Desktop-Bildschirme gedacht,
es gibt keine responsive Version.
Worum geht’s?
Text to Image AIs
In den letzten Jahren wurden eine Menge spezialisierter AIs / KIs vorgestellt, die zum Beispiel Tausende von Gesichtern generieren konnten. Über den Sommer 2022 gab es allerdings einen Quantensprung bei den Ergebnissen. Neue Tools wie Midjourney, DALL-E 2 und Stable Diffusion können in einem breiten Spektrum von Motiven und Stilen überraschend hübsche Bilder generieren.
Dabei gibt der Nutzer einen Text in natürlicher Sprache vor, etwa A lighthouse on the coast
, und erhält ein paar Sekunden später ein generiertes Bild, das im besten Fall nicht nur den Text abbildet, sondern auch noch realistisch und/oder künstlerisch ansprechend aussieht.
Die folgenden Folien enthalten jede Menge Links zum Einstieg ins Thema. Für neue interessante Entwicklungen könnt ihr z.B. den beiden YouTube-Kanälen rechts folgen.
Nicolai Schwarz, @textformer
Designer & Webentwickler aus Dortmund,
textformer.de
Frontend-Entwicklung
Drupal, Backdrop CMS
Autor fürs PC Magazin,
ehemals Redakteur bei der Screenguide
Ablauf
- Intro
- Midjourney
- AI Magic (Wie funktioniert das?)
- DALL-E 2
- Stable Diffusion / Google Colab
- Tool Pipeline
- Recht & Ethik
- Aus der Praxis
- Ausblick (überall AIs)
Intro
Intro
Computer-generierte Kunst existiert bereits seit Ende der 1960er Jahre. Teilweise mit selbst geschriebenen Programmen oder mit Frameworks wie z.B. Processing – oder in den letzten Jahren verstärkt über spezialisierte KIs, die zum Beispiel ein Kunstwerk auf Basis der Bilder von Rembrandt (van Rijn) erschaffen.
Es folgen ein paar Beispiele. Darunter einige sehr simple, die ich selbst mit Processing erstellt habe, und ein paar ausgefeiltere Werke von echten Künstlern.
Midjourney
Midjourney
Für Midjourney benötigt ihr aktuell einen Account bei Discord (gibt es kostenlos). Nach der Anmeldung bei Discord klickt ihr bei midjourney.com auf den Button Join the beta, verknüpft die beiden Plattformen und könnt dann auf Discord dem Server Midjourney beitreten (über das Segelschiff-Icon in der linken Spalte).
Im Kanal getting started (in der zweiten Spalte) gibt es eine kurze Erklärung. Danach könnt ihr in einem der Newbie-Kanäle selbst Prompts ausprobieren. Allerdings habt ihr nur 25 Aktionen frei. Danach müsst ihr ein Abo abschließen.
Wenn ihr in einem der Newbie-Kanäle unterwegs seid, achtet auch eine dünne orangene Linie an der linken Seite der Nachrichten. Dieser Strich markiert eure generierten Bilder.
Lest euch im User Manual durch, was alles mit den Parametern möglich ist.
Midjourney arbeitet übrigens daran, alles über die eigene Website laufen zu lassen, aber aktuell geht es nur über Discord.
AI Magic
AI Magic
Die technische Erklärung wird schnell kompliziert, wenn man es genau wissen will. Im Wesentlichen reicht es zu wissen, dass die verschiedenen KIs mit Millionen von Bildern trainiert werden. Neue Bilder werden nicht aus vorhandenen zusammenkopiert, sondern komplett neu erstellt. Da die verschiedenen Modelle unterschiedlich trainiert wurden, entstehen auch unterschiedliche Bilder. Wenn eine KI nur mit Landschaften trainiert wurde, kann sie eben auch nur Landschaften generieren.
Die beste Erklärung für Einsteiger bietet ein Video von Vox (nächste Seite).
DALL-E 2
DALL-E 2
DALL-E (2) könnt ihr mittlerweile auch kostenlos testen. Ihr erhaltet hier 15 Credits pro Monat. Danach zahlt ihr derzeit 15 US-Dollar für 115 Credits. Auch hier empfiehlt es sich, mit einigen Prompts zu experimentieren. In der Regel erzielt ihr mit Midjourney schneller hübsche Ergebnisse. In DALL-E 2 muss man sich stärker einarbeiten.
Eine Besonderheit ist das In/Outpainting, das ihr über euer User Icon in der rechten, oberen Ecke erreicht. Hier benutzt ihr die KI, um ein Bild zu erweitern oder Elemente aus dem Bild auszutauschen. Wenn euch etwa ein Detail in einem generierten Bild nicht gefällt, könnt ihr das Bild hochladen und das Element mit dem Radiergummi entfernen. DALL-E 2 ersetzt diesen Part nun selbstständig und bietet euch wieder vier Ergebnisse.
Und ja, der Name ist ein Kofferwort aus Salvador Dalà und dem Trickfilm WALL-E.
Stable Diffusion / Google Colab
Stable Diffusion / Google Colab
Mit Stable Diffusion gibt es eine kostenlose Open-Source-Alternative zu Midjourney und DALL-E 2. (Tatsächlich gibt es mehrere Alternativen und Varianten. Wir bleiben hier bei Stable Diffusion.)
Ihr könnt Stable Diffusion entweder auf eurem Rechner installieren – oder ihr nutzt Google Colab als Alternative. Google Colab könnt ihr kostenlos ausprobieren. Ihr nutzt dort vorbereitete Programme anderer Programmierer (sogenannte Notebooks) und könnt mit eigenen Prompts und Bildern Versuche starten. Der Vorteil ist, dass ihr jede Menge Parameter habt, mit denen ihr rumspielen könnt. Der Code läuft bei Google, ihr erhaltet die Ergebnisse in eurem Browser.
Bei jedem Notebooks solltet ihr die Anleitung oben lesen. Manchmal ist es nötig, andere Elemente herunterzuladen und in eurem Google Drive zu hinterlegen.
In jedem Fall empfiehlt es sich, gleich auch einen Account bei Hugging Face anzulegen (auch kostenlos), denn dort erhaltet ihr die Modelle für Stable Diffusion.
Neben Stable Diffusion gibt es Hunderte anderer interessanter Programme, die ihr schnell mit Google Colab ausprobieren könnt.
Stable Diffusion Web UI
Für die Techniker bietet es sich an, die Stable Diffusion Web UI auf dem eigenen Rechner zu installieren. Dafür braucht man einen modernen Rechner mit guter Grafikkarte. Ihr solltet euch mit Git auskennen, und folgt dann der Anleitung auf GitHub.
Der Vorteil an diesem Paket ist, dass es zum einen Stable Diffusion um eine GUI ergänzt und zum anderen viele interessante Programme bereits integriert wurden, zum Beispiel Upscaler, Inpainting, Outpainting und Tools, die Gesichter reparieren.
Tool Pipeline
Tool Pipeline
Wie bei dem Gothic Girl gesehen, gibt es keinen Grund, sich mit einem Tool zu begnügen. Ihr könnt problemlos einige spezialisierte Tools aneinanderreihen. Oder natürlich Bilder in PhotoShop nachbearbeiten. Oder mit After Effects animieren.
- Upscaling z.B. mit Gigapixel AI ↪ (es gibt hier zahlreiche Alternativen)
- Lichtquellen setzen mit Relight ↪
- Statische Bilder sprechen lassen z.B. mit D-ID ↪
- D-ID-Beispiel auf Instagram ↪
- Animierte Bilder z.B. mit Motionleap ↪
- Video: Tips for INSANE Dimensionality using Motionleap & Midjourney (english) ↪
Recht & Ethik
Recht & Ethik
Aktueller Stand: Jede Menge Probleme, aber keine Lösungen in Sicht.
Insbesondere stellt sich die Frage, ob es ein Copyright auf KI generierte Bilder geben kann? Bzw. welchen Anteil ein Mensch am Ergebnis haben muss, um ein Copyright zu rechtfertigen? Bilder ohne Copyright könnte man natürlich einfach so nutzen, und muss sie nicht extra bei einer Bilddatenbank einkaufen.
Das größere Problem haben Künstler, deren Bilder ungefragt genutzt werden, um die KI-Modelle zu trainieren.
Hier wird man vermutlich einige Klagen abwarten müssen.
Aus der Praxis
Aus der Praxis
Ich kenne kein Beispiel für eine sinnvolle Kampagne, die auf KI generierten Bildern basiert. Aktuell probieren nur viele Leute und Agenturen aus, was vielleicht damit möglich sein wird. Animierte Videos, Ideen für Logos, eine Basis für Plakate …
In manchen Bereichen eignen sich die generierten Bilder aber bereits für den Einsatz: Für private Sessions von Rollenspielern, für Mood-Bilder in der Konzeptionsphase von Videospielen, für kleine Blogs und Magazine, für Kapitel in einem Vortrag – wenn das Bild eher eine Stimmung vermitteln soll und nicht perfekt sein muss.
Ausblick
Ausblick
Neben Text-to-Image Tools gibt es immer häufiger Anbieter, die sich auf Nischen wie zum Beispiel Marketing oder Storytelling spezialisiert haben. Demnächst mag es Bestseller geben, die zu 80% von einer KI geschrieben wurden.
Die großen IT-Unternehmen wollen den Trend natürlich nicht verpassen. Microsoft wird DALL-E 2 zumindest in Teilen in seine Office Suite integrieren.
Und während Text-to-Image noch gar nicht bei allen angekommen ist, steht Text-to-Video bereits in der Startlöchern. Noch mit eher amüsanten Ergebnissen. Aber das kann sich sehr schnell ändern.