Es ist kaum zu übersehen, wie viel Aufmerksamkeit allein KI-Bildgeneratoren in den letzten Monaten auf sich gezogen haben. Mit gutem Grund, denn sie demonstrieren die Fortschritte von Deep-Learning-Modellen auf anschauliche und spielerische Weise. Von chaotischen, mit neuronalen Netzen erzeugten Zufallsbildern, die Google 2015 mit Deep Dream einer breiten Öffentlichkeit zugänglich machte, ging die Reise zu fast fotorealistischen Abbildungen der Generatoren Dall-E 2 von Open AI, Midjourney von Midjian oder Dreamstudio von Stable Diffusion.
KI als Künstler: DALL-E, Midjourney & Co. im Vergleich
Generatoren gibt es mittlerweile nicht nur in der Cloud, sondern auch für den eigenen PC. Vorausgesetzt, dieser hat genügend Leistung. Dieser Beitrag stellt Bildgeneratoren vor, die die freie Software Stable Diffusion nutzen, die an der LMU München von der Forschungsgruppe Compvis mit einigen externen Partnern und der Firma Stabilty AI entwickelt wird.
Denn nicht nur die KI steht unter einer vergleichsweise freizügigen Lizenz, sondern auch die Trainingsdaten: Die gemeinnützige Stiftung LAION (Large-Scale Artificial Intelligence Open Network) hat 2022 eine freie Datenbank mit 5,85 Millionen Bildern und deren Beschreibungen veröffentlicht, mit der Stable Diffusion trainiert ist. Diese Datenbank steht unter einer Creative-Commons-Lizenz und enthält selbst keine Bilder, jedoch die Beschreibungen und die Links zu den öffentlich aufrufbaren Bildmaterialien im Web.
Stable Diffusion auf dem PC
Wie auch Dall-E und Midjourney hat Stable Diffusion einen Text-zu-Bild-Parser. Dieser verarbeitet die Eingaben in Deutsch oder Englisch und kreiert aus Bildbeschreibungen per künstlicher Intelligenz neue Motive, die mehr oder weniger den eingetippten Wünschen entsprechen. Das Material für diese stets neu generierten Bilder schöpft Stable Diffusion dabei aus seinen antrainierten Modellen.

Komplettpaket: NMKD Stable Diffusion GUI bietet Windows-Anwendern einen vergleichsweise einfachen Einstieg, denn es liefert einen Installer für alle Komponenten von Stable Diffusion als Bildgenerator.
IDG
Dieser Beitrag zeigt die beiden Programme NMKD Stable Diffusion GUI und Automatic 1111 für Stable Diffusion für Windows. Beide Tools haben verschiedene Stärken und setzen in jedem Fall leistungsstarke Hardware voraus: Eine aktuelle Grafikkarte (Nvidia oder AMD) mit 8 GB VRAM sollte der PC für generative KI schon haben sowie 16 GB Arbeitsspeicher. Diese Ausstattung entspricht also einem gut ausgerüsteten Gaming-PC. Sie können die Tools auch mit einem schwächeren PC nutzen, müssen dann aber deutlich länger warten.
NMKD: Gelungener Einstieg
Das Team hinter Stable Diffusion veröffentlichte den Quellcode seiner KI-Software zur Bildgenerierung schon 2022 zunächst als Beta-Version einem kleineren Forscherkreis, um zwischenzeitlich eine freie Lizenz zu formulieren. Unter den Bedingungen der Lizenz Open-RAIL steht Stable Diffusion seit August 2022 nun allen Interessierten offen.
Schnell inspirierte der verfügbare Python-Quellcode unabhängige Entwickler, eine lokal installierbare Version für den eigenen Rechner ganz ohne Cloud herauszugeben. Die Motivation dahinter ist eine größere Freiheit bei der Generierung von Bildern sowie bei den Motiven selbst. Denn eine lokal installierte Version von Stable Diffusion liefert gerade für geduldige Anwender weit mehr Parameter zum Experimentieren.

Aktualisieren: Nicht verzweifeln, wenn NMKD erst mal keine Ergebnisse produzieren will. Der eingebaute Updater holt neue, meist fehlerbereinigte Versionen auf den Rechner.
IDG
Die mit Stable Diffusion generierten Bilder sind für die meisten privaten und sogar kommerziellen Zwecke frei verwendbar. Es gibt einige detaillierte Einschränkungen in der Nutzung, auf welche der Kasten am Ende dieses Artikels eingeht.
Stable Diffusion verlangt nach Python und etlichen Python-Modulen. Damit tun sich Linux-Anwender leichter, aber auf Windows-Systemen mit 64 Bit ist die Installation von Python-Modulen, Stable Diffusion und den KI-Modellen kein Vergnügen. Ganz erheblich entschärft hat diese Aufgabe das freie Tool NMKD Stable Diffusion GUI.
Der Entwickler bittet für den Download um eine (freiwillige) Spende. Es gibt zwei Installationspakete, einmal mit beigelegten Modelldaten mit 3 GB Umfang sowie ohne diese Daten (1 GB). In beiden Fällen liegt eine stark komprimierte 7z-Archivdatei vor, die den Packer 7-Zip zum Entpacken verlangt. NMKD Stable Diffusion GUI mit dem fertigen Modell entpackt sich, übrigens in einen beliebigen Ordner, auf die stolze Größe von 7,6 GB auf dem Datenträger.
Lesetipp: Die 7 besten KI-Tools, die Ihnen das Leben und die Arbeit erleichtern
Modelle: Nvidia-Karten im Vorteil
Wer eine Nvidia-Grafikkarte mit mindestens 4 GB Video-RAM im Rechner sowie die aktuellen Nvidia-Treiber für die Karte über das Nvidia-Treiberpaket Geforce Experience installiert hat, kann sofort loslegen. Denn Stable Diffusion ist wie viele anderen KI-Anwendungen für die CUDA-Schnittstelle von Nvidia optimiert, die Fließkommaberechnungen auf den Shadern der Grafikkarte ausführt.
Nach dem Aufruf der Programmdatei StableDiffusionGui.EXE im entpackten Verzeichnis startet die englischsprachige grafische Oberfläche zu Stable Diffusion. Nach dem Willkommensbildschirm geht es weiter zur Hauptseite des Programms mit den Einstellungen. Ganz unten zeigt das Programm in der Anzeige seines Logs an, ob die Nvidia-Karte zur Nutzung der CUDA-Schnittstelle erkannt wurde.
Übrigens ist es wahrscheinlich, dass der Entwickler in der Zwischenzeit eine neue Version von NMKD mit etlichen Verbesserungen herausgegeben hat. Die Updates installieren Sie über die Menüleiste oben rechts mit einem Klick auf das Monitorsymbol mit dem Pfeil und den Unterpunkt „Install Updates“.
Für AMD-Karten: Modell anpassen
Etwas holpriger ist der Start mit NMKD für Anwender mit AMD-Grafikkarte (ab 6 GB Video-RAM). Denn es warten zuvor noch zusätzliche Schritte: Das mitgelieferte Modell ist für AMD mangels CUDA-Schnittstelle bei diesem Grafikkartenhersteller nicht geeignet. Es ist möglich, das mitgelieferte Modell für AMD zu konvertieren, aber dieser Weg hat sich bei unseren Tests als fehleranfällig erwiesen.
Besser ist es, direkt vom Entwickler von NMKD ein fertiges Modell herunterzuladen (3,5 GB). Auch hier handelt es sich wieder um eine Archivdatei im 7z-Format, und der enthaltene Ordner namens stable_diffusion_onnx muss diesmal zwingend als ganzer in das Unterverzeichnis „Models\Checkpoints“ im Programmordner von NMKD entpackt werden, damit das Tool das Modell findet.
Ganz rechts oben geht es dann auf das Zahnrad-Symbol und auf der Einstellungsseite auf das erste Feld namens „Image Generation Implementation“. Hier muss nun „Stable Diffusion (ONNX – DirectML – For AMDGPUs)“ ausgewählt werden. Darunter gibt es neben dem Feld „Stable Diffusion Model“ die Schaltfläche „Refresh List“, und ein Klick darauf macht nun im Auswahlfeld davor den Eintrag „stable_diffusion_onnx“ verfügbar. Ist dies alles ausgewählt, geht es zurück zum Hauptfenster zur Bildgenerierung.
Bilder per Prompt erzeugen
NMKD bleibt bei den angezeigten Funktionen und Parametern vergleichsweise übersichtlich. Zur KI-Bildgenerierung dient das größere Eingabefeld im Abschnitt „Prompt Settings“, in das Sie deutsch- oder englischsprachig das Bild beschreiben, das im Ergebnis die KI als Motiv erzeugen soll.
Darunter gibt es ein kleineres Feld, dass Begriffe aufnimmt, welche Stile, Motivdetails oder Farben nicht im fertigen Bild vorkommen sollen.
Darunter kann mit „Textual Inversion Embedding“ auch eine Beschreibung mit Beispielbildern unterlegt werden, um die KI in die gewünschte Richtung zu lenken.
Wichtig, aber mit starken Auswirkungen auf die Rechenzeit wirkt sich der Schieberegler „Generation Steps“ aus, der die Feinheiten der Details im Bild erhöht.
Die „Prompt Guidance CFG Scale“ gibt vor, wie nah sich die KI an die Bildbeschreibung halten soll. Je genauer und ausführlich diese geworden ist, desto höher kann dieser Wert ausfallen.
Den größten Einfluss auf die Zeit zur Erstellung hat die Auflösung unter „Resolution“. Während eine Grafikkarte wie die Nvidia Geforce RTX 4070 ein Bild von 512 mal 512 Pixeln in wenigen Sekunden berechnet, verlangen hohe Auflösungen schon mal Minuten bis Stunden an Geduld.
Bessere Bilder: Tipps zur Syntax
Wer NMKD Stable Diffusion GUI oder Automatic 1111 nur ein paar Experimenten unterzieht, merkt schnell: Auf eine sorgfältige, nicht zu knappe Bildbeschreibung kommt es an.
Damit die Ergebnisse den Erwartungen entsprechen, müssen die Bilder im sogenannten Prompt recht genau und treffend beschrieben werden – auf Deutsch oder besser auf Englisch. Denn die letztere Sprache kann bei Stable Diffusion auf einen größeren Satz von Modelldaten zugreifen.
Zu schnellen Erfolgserlebnissen kann die Angabe einen bestimmten Bildstils als zusätzliche Beschreibung verhelfen. Beispielsweise „photorealistic“ für Fotografieähnliche Bilder. Es können auch Künstler genannt werden. Für unser Aufmacherbild ergänzten wir beispielsweise „painting, in the style of Botticelli“, um eine Renaissance-Malerei nachzuempfinden.
Automatic 1111: KI per Browser

Transparente Installation: Auch Automatic 1111 gibt es als Windows-Installer in Form einiger Python- und Powershell- Scripts, die in einem Fenster der Eingabeaufforderung zeigen, was sie tun.
IDG
Neben NMKD bietet sich für Windows-Anwender auch Automatic 1111 als Bedienoberfläche für Stable Diffusion an. Auch dieses Programm gibt es mit komfortablem Installer, welcher Python und alle Module in einer Aktion installiert. Nach dem Aufruf der EXE-Datei entpackt diese zunächst die eigentlichen Installationsdateien in den angegebenen Ordner. Erst dort startet dann ein Doppelklick auf „A1111 (WebUI)“ die eigentliche Einrichtung, die per Script in einer geöffneten Eingabeaufforderung erfolgt. Hier fragt das Installationsscript auch nach, ob es ein Modell herunterladen soll. In diesem Fall ist der Installationsprozess länger beschäftigt, denn dieser Download umfasst wieder satte 3,5 GB.
Die Ähnlichkeiten mit NMKD enden hier, denn Automatic 1111 ist ein KI-Bildgenerator für Fortgeschrittene. Die Oberfläche ist eine Weboberfläche für den Browser, auch beim Gebrauch auf dem lokalen Computer. Dieser Ansatz hat aber den Vorteil, dass dieses Front-End für Stable Diffusion auch von anderen Rechnern im LAN aus bedient werden kann, etwa von der Couch aus mit dem Laptop oder Tablet.

Ein anderer Ansatz: Automatic 1111 will per Browser bedient werden. Dieser Starter setzt dazu einen mitgelieferten Webserver in Gang und öffnet dessen Adresse auf dem Localhost.
IDG
Der Aufruf der Verknüpfung A1111 (WebUI) zeigt zunächst einen Starter für weitere Optionen an. Wenn die Grafikkarte weniger als 8 GB Video-RAM aufweist, reduziert die Option „Low VRAM“ hier den Speicherbedarf. Auf dem gleichen PC, der Automatic 1111 ausführt, öffnet sich dann im Browser die URL http://0.0.0.0:7860. Von außen dient stattdessen die Adresse http://[IP-Adresse]:7860 zum Aufruf, wobei der Platzhalter „[IP-Adresse]“ der IPv4-Nummer des Rechners im Netzwerk entspricht, so wie sie der Befehl ipconfig in der Eingabeaufforderung anzeigt. Diese öffnen Sie über die Eingabe von cmd in der Windows-Suche.
Außerdem muss der Port 7860 in der Windows-Firewall als eingehender Port erlaubt sei, was Sie über „Windows-Sicherheit“ unter „Firewall- & Netzwerkschutz –› Erweiterte Einstellungen –› Eingehende Regel –› neue Regel“ einstellen.
Auch Automatic 1111 will zunächst nur mit Nvidia-Grafikkarten zusammenarbeiten. Wer AMD einsetzt, muss wieder einen Zwischenschritt einlegen: Nach dem Schließen aller Instanzen von Automatic 1111 öffnet man ein neues Fenster der Eingabeaufforderung und gibt diesen Befehl ein:
git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stablediffusion-webui-directml && git submodule init && git submodule update
Anschließend muss die Batchdatei webuiuser.bat im Unterverzeichnis „stable-diffusion- webui-directml“ noch mit einem Texteditor modifiziert werden. Hinter die Zeile „set COMMANDLINE_ARGS=„ kommt folgende Ergänzung:
--opt-sub-quad-attention --lowvram --disable-nan-check --skip-torch-cuda-test
Danach startet der Aufruf von webui-user.bat die Web-Oberfläche und installiert dabei zuvor die zusätzlich benötigten Module.

Viele Optionen für Fortgeschrittene: Wer mehr Optionen zur Feinabstimmung wünscht, findet diese bei Automatic 1111, um beispielsweise den Bildstil mit der „Sampling method“ zu beeinflussen.
IDG
Stable Diffusion: Die Lizenzbedingungen
Die von Stable Diffusion erzeugten Grafiken sind im Hinblick auf die Lizenz vielseitig einsetzbar. Denn die Trainingsdaten hinter Stable Diffusion und die KI-Software selbst erlauben eine Nutzung der Ergebnisse nicht nur für private Zwecke. Auch eine kommerzielle Verwertung ist nach der verwendeten Lizenz „Creative ML Open RAIL-M“ völlig in Ordnung.
Es handelt sich aber um keine traditionelle freie Lizenz im Sinne von Open-Source-Software, denn es gibt durchaus Einschränkungen. Nicht erlaubt ist laut dem Lizenztext der Einsatz zum Verstoß gegen örtlich geltendes Recht. Auch die Erstellung von Falschinformationen mit dem Ziel, anderen zu schaden, ist nicht erlaubt. Genauso wenig die Erstellung diskriminierender ober beleidigender Inhalte. Auch medizinische Beratung, Strafverfolgung durch Profiling und juristische Beratungen gehören zu den verbotenen Einsatzfeldern für die Grafiken, die die hier vorgestellten Programme mit Stable Diffusion erzeugen.