Haben Sie schon mal ein Bild von einem Astronauten gesehen, der sich auf einem tropischen Planeten auf einer Sonnenliege entspannt? Vermutlich nicht. Das Bild ist auf der Website von DALL-E 2.0 zu finden. Das dahinter stehende Unternehmen Open AI will damit die Arbeitsweise seines Onlinetools veranschaulichen: das Erstellen eines Bildes nur mithilfe eines Beschreibungstextes.
Im Falle des Astronauten lautet dieser Text: „An astronaut lounging in a tropical resort in space in a vaporwave style“. Das Ergebnis dieser Anforderung ist beeindruckend und zeigt, was mit KI beziehungsweise mit Deep Learning mittlerweile möglich ist. Denn KI kann sehr viel mehr als nur Daten analysieren und aufgrund dieser Analyse bestimmte Vorgänge ausführen (lassen).
Siehe auch: Diese KI komponiert Musik nach Ihren Wünschen
Künstliche Intelligenz: Generierend statt klassifizierend
Im Consumerbereich war bislang insbesondere bei Smartphones, Notebooks und PCs die Rede von künstlicher Intelligenz (KI). Smartphones setzen KI dabei vor allem beim Fotografieren ein. Die entsprechenden Chips analysieren ein Motiv und wählen selbstständig zum Beispiel die optimalen Einstellungen für die Belichtung, bei Serienbildern die beste Aufnahme aus. Prozessoren mit KI-Unterstützung geben bestimmte Berechnungen an die KI ab, was zu effizienterer Auslastung und einer insgesamt höheren Leistung des Geräts führt. Diese Art von künstlicher Intelligenz wird als klassifizierend bezeichnet, da sie bestimmte Daten analysiert, einordnet und danach zur Weiterverarbeitung freigibt.

Zum Vergleich: Die KI-generierten Bilder zum Beschreibungstext „a beautiful fairy in an enchanted forest with glittering lights” bei DALL-E 2.0 (links), Stable Diffusion (Mitte) und Midjourney (rechts). Je „machbarer“ die Beschreibung ist, desto besser fallen die Ergebnisse aus.
IDG
Im Gegenzug dazu erstellt die generierende KI neue Inhalte, greift dazu aber auch auf die Ergebnisse der Analyse zurück. So wandelt beispielsweise DALL-E 2.0 Wörter in Bilder um. Als Basis dient dem Programm dazu eine Datenbank aus Millionen von Bildern, die im Internet verfügbar sind und die von der KI analysiert sowie eingeordnet wurden.
Dabei hat die KI den Zusammenhang zwischen den Bildern und der dazugehörigen Textbeschreibung erlernt und wendet diesen durch einen als „Diffusion“ bezeichneten Prozess zum Erstellen von neuen Bildern an: Ausgangspunkt ist hierbei ein Bild, das aus zufällig angeordneten Pixeln besteht und das sich mittels der Bilddatenbank Schritt für Schritt zu einem Bild entwickelt, das der eingegebenen Textbeschreibung entspricht.
KI-generierte Bilder: Einsatzzweck und Urheberschaft

DALL-E 2.0 zeigt Ihnen auf der Eingangsseite verschiedene Beispielbilder. Platzieren Sie die Maus auf einem Bild, decken Sie die Beschreibung auf, anhand derer das Bild erstellt wurde. Oben in der Eingabezeile tragen Sie Ihre eigenen Beschreibungstexte ein.
IDG
Der Einsatzzweck von DALL-E 2.0 sowie dessen Mitstreitern wie Midjourney und Stability.ai ist aber natürlich nicht, Internetnutzer kurzzeitig mit lustigen Bildchen zu bespaßen. Vielmehr sollen die Ergebnisse gerade dort zum Einsatz kommen, wo es bisher wenige bis gar keine Bilder gegeben hat. So können die Ergebnisse dementsprechend auch vom persönlichen Blog bis hin zur kommerziellen Werbekampagne überall verwendet werden.
Das bringt wiederum die Frage nach dem Urheber der Ergebnisse auf. Die für das Anlernen der KI verwendeten Internetbilder sind größtenteils unter Creative-Commons-Lizenzen veröffentlicht worden. Beschwerden gegen die Dienste gestalten sich darüber hinaus als schwierig, da die betroffenen Künstler wenig Chancen haben, im Endergebnis nachzuweisen, in welchem Umfang und wie genau das Originalbild verwendet wurde.
Des Weiteren herrscht die übereinstimmende Meinung, dass eine KI nicht als Autor betrachtet werden kann, weshalb sie keine Rechtsverletzung begehen kann. So hat das US Copyright Office beispielsweise 2019 festgestellt, dass „Werke, die von einer Maschine oder einem rein mechanischen Prozess hergestellt werden, der zufällig oder automatisch ohne Eingabe oder kreative Intervention eines menschlichen Autors funktioniert, nicht registriert werden“ können, kein Urheberrecht für sich beanspruchen können. Nichtsdestotrotz klagen immer wieder Künstler gegen die KI-generierten Erzeugnisse, bisher jedoch ohne Erfolg.
Lesetipp: Hat das Handy bald Gefühle? Künstliche Intelligenz nahezu menschlich
DALL-E 2.0: Collagen, Stilrichtungen und mehr

Haben Sie von DALL-E 2.0 Ihre vier generierten Bilder bekommen, können Sie sich von jedem Motiv Variationen erstellen lassen. Die Qualität der Ergebnisse hängt in erster Linie vom vorgegebenen Beschreibungstext ab. Unserer lautete „a cat in a leather jacket making an omelette”.
IDG
Der Dienst DALL-E 2.0 der US-amerikanischen Non-Profit-Organisation Open AI, zu deren Geldgebern Microsoft und Elon Musk gehören, ist die mittlerweile dritte Version des KI-gesteuerten Bildgenerators. Der Name Dall-E setzt sich dabei zusammen aus „WALL-E“, dem gleichnamigen Film von Pixar/Disney über einen sich weiterentwickelnden Müllentsorgungsroboter, und dem Namen des spanischen Künstlers Salvador Dalí. Dementsprechend war der Haupteinsatzzweck von DALL-E zu Beginn, Fotos in der Optik von verschiedenen künstlerischen Stilrichtungen zu erstellen und daraus zu lernen.
Die Ursprungsversion von DALL-E wurde im Januar 2021 vorgestellt, sie war allerdings nur wenigen Beta-Nutzern vorbehalten. Mit DALL-E mini, das inzwischen in „Craiyon“ umbenannt wurde, kam kurz darauf eine frei nutzbare Version. DALL-E 2.0 ist seit April 2022 verfügbar. Sie benötigen dafür lediglich einen kostenlosen Account, der neben Ihrer Mailadresse und Ihrem Namen auch eine gültige Mobilfunknummer voraussetzt. Über diese bekommen Sie einen Bestätigungscode per SMS.
Anschließend können Sie im ersten Monat nach Ihrer Anmeldung 50 Bilder generieren, pro Folgemonat erhalten Sie dann weitere 15 „credits“, also Freibilder. Zum Erstellen geben Sie einfach Ihre englischsprachige Beschreibung in die Zeile oben ein und klicken auf „Generate“. Neben dem Erstellen von Bildern aus dem Bestand des Dienstes dürfen Sie auch selbst Vorlagen hochladen, wobei diese bestimmte Bedingungen erfüllen müssten (siehe dazu Punkt „Filter sollen Missbrauch verhindern“ weiter unten).
Haben Sie sich für eine Bildbeschreibung entschieden, erhalten Sie vier Ergebnisbilder, die Sie danach auch einzeln herunterladen können. Über das Kontextmenü haben Sie zudem die Möglichkeit, Variationen der einzelnen Bilder erstellen zu lassen, bei denen Ihre Beschreibung etwas weiter gefasst wird. Über „My collection“ gelangen Sie zu allen Ihren erstellten Bildern.
Midjourney: Neue künstlerische Werke statt Collagen

Die Ergebnisse von Midjourney sind weitaus künstlerischer als die von DALL-E 2.0. Das Erstellen der Bilder übernimmt ein Bot in einem Discord-Channel, den Sie mit spezifischen Befehlen füttern. Dabei sollten Sie eher ein Motiv ausführlicher beschreiben als verschiedene Teile kombinieren.
IDG
Bei Midjourney handelt es sich um ein unabhängiges US-amerikanisches Forschungslabor, dessen gleichnamiges Programm ebenfalls Bilder aus Beschreibungstexten generiert. Seit Juli 2022 ist der Dienst als offene Beta-Version nutzbar, User verwenden Bot-Befehle der Kommunikationsplattform Discord, um Bilder damit zu erstellen. Hierbei fällt allerdings grundsätzlich auf, dass die Ergebnisse von Midjourney im Vergleich zu denen von DALL-E tatsächlich wie echte Kunstwerke aussehen und nicht wie eine mehr oder weniger stimmige Collage aus Einzelmotiven.
Nach der Anmeldung („Join the beta“) bei Discord mit Namen, Mailadresse und Geburtsdatum, loggen Sie sich mit Ihren Discord-Zugangsdaten bei Midjourney ein („Sign in“) und erteilen dem Dienst den Zugriff auf Ihr Discord-Konto. Unter https://discord.gg/midjourney können Sie dann loslegen mit dem Kreieren, Ihre Werke sehen Sie unter https://www.midjourney.com/app.
Die ersten 25 generierten Bilder sind kostenlos, im Anschluss daran stehen Ihnen mehrere Abomodelle zur Auswahl, die bei monatlich 10 US-Dollar für 200 Bilder beziehungsweise 200 GPU-Minuten beginnen.

Wie schon bei DALL-E 2.0 dürfen Sie sich auch bei Midjourney Variationen (links) Ihrer Ergebnisse erstellen lassen. Diese werden mit den Originalen in Ihrer öffentlichen Galerie angezeigt. Wer es lieber privat mag, muss eine entsprechende Option für 20 US-Dollar pro Monat buchen.
IDG
Und so geht’s: Öffnen Sie https://discord.gg/midjourney, und treten Sie einem beliebigen „newbies“-Channel aus der links angezeigten Auswahl bei. In die Eingabezeile tippen Sie
/image
und klicken als Nächstes auf die Schaltfläche „Prompt“, die daraufhin eingeblendet wird. Jetzt geben Sie die gewünschte Bildbeschreibung auf Englisch ein. Eventuell müssen Sie zuvor noch den Nutzerbedingungen zustimmen. Dann beginnt das Programm damit, vier Bilder gemäß Ihrer Beschreibung zu erstellen. Über die Schaltflächen U1 bis U4 können Sie die Bilder vergrößern, V1 bis V4 erstellt Variationen des gewählten Motivs, die in der Folge in Ihrer Galerie unter https://www.midjourney.com/app landen.
Stable Diffusion: Open Source (auch) aus München

Stable Diffusion bietet Ihnen eine Onlinespielwiese, auf der Sie ohne Anmeldung Bilder per Textbeschreibung generieren können. Variationen sind hier nicht möglich. Dafür ist der Code Open Source und lässt sich von Github herunterladen.
IDG
Der dritte Anbieter für KI-generierte Bilder per Bildbeschreibung ist Stability.ai. Sein Deep-Learning-Modell „Stable Diffusion“ wurde in Zusammenarbeit mit der Ludwig- Maximilians-Universität München und Runway Research entwickelt, einem auf KI spezialisierten Unternehmen. Als Datengrundlage dient LAION-5B, eine Datenbank mit knapp 6 Milliarden Bild-Text-Paaren.
Im Gegensatz zu DALL-E 2.0 und Midjourney, die nur als Clouddienste zur Verfügung stehen, ist der Code von Stable Diffusion unter der Open-Source-Lizenz frei verfügbar und lässt sich auf den meisten Consumer-PCs ausführen. Von der Arbeitsweise her basiert Stable Diffusion wie DALL-E 2.0 auf dem bereits erwähnten Diffusion-Prozess. Eine Testplattform ist hier zu finden.
Stable Diffusion ist dabei noch einfacher zu bedienen als DALL-E 2.0, Sie müssen sich nämlich nicht einmal registrieren. Sie tragen lediglich Ihre Bildbeschreibung auf Englisch in das Textfeld ein und klicken auf „Generate image“. In den „Advanced options“ können Sie die Anzahl der Bilder festlegen und weitere Einstellungen vornehmen. Die Ergebnisse für unser Standardbeispiel („cat in a leather jacket making an omelette”) waren zwar sehr fotorealistisch. Allerdings fehlte von den drei angegebenen Merkmalen – cat, leather jacket und omelette – immer mindestens eines. Dagegen brachte eine realistischere Beschreibung wie „beautiful beach with palm trees and a sailboat“ deutlich bessere Ergebnisse.

Wählen wir einen realistischeren Beschreibungstext („beautiful beach with palm trees and a sailboat“), fallen auch bei Stable Diffusion die Ergebnisse besser aus. Allerdings fehlte hier ebenfalls manchmal ein angegebenes Merkmal (sailboat).
IDG
Sicherheitsmaßnahmen: Filter sollen Missbrauch verhindern
Natürlich laden Dienste wie DALL-E 2.0, Midjourney und Stable Diffusion dazu ein, damit Unfug anzustellen oder die Dienste anderweitig zu missbrauchen.
DALL-E 2.0 hat zu diesem Zweck einen Filter eingebaut, der Nutzer daran hindert, unter anderem gewalttätige, pornografische oder politische Inhalte zu erstellen. Auch reale Personen sowie Prominente dürfen nicht als Teil der Textbeschreibung verwendet werden. Begleitend zu diesen Nutzerregeln müssen Sie sich bei DALL-E mit Ihrem Namen, Ihrer Mailadresse und Mobilfunknummer registrieren, sodass die Hürden für Missbrauch hier etwas höher sind.
Auch Midjourney hat einen „Code of Conduct”, also Nutzerregeln auf der Website. An oberster Stelle steht dabei „Don’t be a jerk“, also „Sei kein Idiot“, und der Aufruf, doch bitte keine Bilder zu generieren, die andere Nutzer verärgern, beleidigen oder verstören könnten, also etwa brutale oder pornografische Bilder. Interessant: Midjourney bietet zu den Abomodellen eine „Privatmodus“-Option für 20 US-Dollar pro Monat an. Ist diese aktiv, so werden die Anfragen mittels Direktnachrichten an den Midjourney-Bot geschickt, und die generierten Bilder lassen sich in der Nutzergalerie ausblenden, falls gewünscht. Midjourney verweist aber auch beim Privatmodus auf die erlaubte Altersfreigabe PG-13.
Stable Diffusion hat dagegen keinerlei Filter oder Warnung, was problematische Bilder angeht. Auf der Seite der Testplattform ist sogar explizit zu lesen, dass die Ergebnisse „gesellschaftliche Vorurteile verstärken sowie realistische Gesichter, Pornografie und Gewalt ausgeben“ könnten. Die zugrundeliegende Datenbank LAION-5B sei jedoch von illegalem Content befreit worden.
Immerhin wird der Quellcode stärker vor Missbrauch geschützt, hier müssen Nutzer sich anmelden und Kontaktinformationen hinterlassen. Darüber hinaus besagen die Nutzerbedingungen, dass das Modell nicht verwendet werden darf, um absichtlich illegale oder schädliche Inhalte zu generieren.
Fazit: Ergebnisse hängen von der Qualität der Beschreibung ab
KI-generierte Bilder bieten unzählige Möglichkeiten für den privaten, aber auch für den kommerziellen Einsatz. So haben zum Beispiel die Wochenzeitung „The Economist“ sowie das Frauenmagazin „Cosmopolitan“ bereits Titelbilder mit KI produzieren lassen. Aber auch für die private Website kann ein per DALL-E 2.0, Midjourney oder Stable Diffusion erstelltes Bild neue Möglichkeiten eröffnen.
Doch die neue Art der Bebilderung bringt auch Probleme mit sich: Die Frage nach der Urheberschaft ist derzeit nicht geklärt, und viele Künstler sehen darin eine Gefahr für ihr Schaffen. Auch muss man sich darüber bewusst sein, dass die Qualität der KI-Bilder stets besser wird und bereits jetzt fortwährend Bildmanipulationen aufgedeckt werden, ohne dass dabei auch noch eine künstliche Intelligenz mitmischt.
Dennoch: Das Potenzial der vorgestellten KI-Modelle ist schon jetzt faszinierend, und wir können gespannt sein, was da noch alles kommt.