Wie funktioniert die Wombo Dream App?

Ich hatte vor ein paar Tagen die App Wombo Dream gepickt, weil sie ermöglicht, per künstlicher Intelligenz Kunstwerke zu erschaffen. Wie man die App nutzt, kannst du hier im Beitrag zur Wombo AI lesen. Im aktuellen Blogpost möchte ich jedoch darauf eingehen, wie die Technik hinter dieser App arbeitet.

Mac-Tipp: Große Dateien finden und löschen mit Daisy Disk (Werbung)

Malen mit einer AI und der Wombo AI App – so einfach kann es sein.

Kapitel in diesem Beitrag:

1 VQGAN + CLIP – Algorithmen zum maschinellen Lernen im Zusammenspiel
2 KI-Kunst erstellen ohne Programmierkenntnisse
3 Mein Tipp: Google Colab Pro

VQGAN + CLIP – Algorithmen zum maschinellen Lernen im Zusammenspiel

Die App von Wombo Dream – so wie viele andere Apps, die generative Kunst erstellen, basiert im Grunde auf zwei künstlichen, neuronalen Netzwerken, welche zusammen die Bilder kreieren. Die Namen dieser beiden Netzwerke sind VQGAN und CLIP.

VQGAN ist ein neuronales Netzwerk, das verwendet wird, um Bilder zu erzeugen, welche anderen Bildern ähnlich sehen. CLIP wiederum ist ein neuronales Netzwerk, was darauf trainiert wurde, festzustellen, wie gut eine Textbeschreibung zu einem Bild passt.

CLIP gibt VQGAN eine Rückmeldung, wie das Bild der Textaufforderung am besten entspricht. VQGAN passt das Bild dahingehend an und übergibt es wieder an CLIP, um zu checken, wie gut es zum Text passt. Diesen Vorgang wiederholt man einige Hundert Male und erhält dadurch die ki-generierten Bilder.

Beide Algorithmen wurden von Ryan Murdock und Kathrine Crowson kombiniert, welche sich für ki-generierte Kunst begeistern.

An einem Beispiel möchte ich zeigen, wie die Prozedur abläuft. Die Texteingabe für das folgende Projekt war „nether portal rendered in Cinema 4D“. Insgesamt wurden 250 Iterationen durchlaufen und ich habe alle 50 Durchläufe einen Screenshot gespeichert. Hier das Ergebnis:

Bild 1: Alle fängt immer mit einem recht unscheinbarem "Seed" an – einer farbigen Fläche mit einigen leichten Strukturen.. — Bild 1: Alle fängt immer mit einem recht unscheinbarem „Seed“ an – einer farbigen Fläche mit einigen leichten Strukturen.

Bild 2: Nach 50 Iterationen hat sich schon einiges getan und man erkennt eine Art Netherportal aus Minecraft.

Bild 3: Nach den ersten 100 Iterationen haben sich im Prinzip schon die gröbsten Strukturen, die Farben und das Hauptmotiv gebildet.

Bild 4: In den letzten Berechnungen sind hauptsächlich Feinheiten im Fokus.

Bild 5: Jetzt haben wir 200 Iterationen durch und es tut sich noch etwas an den hellen Flammen an der Oberseite des Portals.

Bild 6: Das Ergebnis ist nach 250 Iterationen da. Im Prinzip ein hübsches Kunstwerk für Minecraft Fans.

Man könnte auch noch weitere Iterationen durchlaufen lassen, aber bei kleinen Auflösungen sind 250 ein guter Wert. In der Praxis haben sich Zahlen zwischen 500 und 700 als hilfreich erwiesen, da mehr Iterationen auch mehr Rechenzeit bedeuten, aber dadurch letztendlich nur noch wenige Details berechnet werden, die man kaum sieht.

Es gibt einige Leute, die bis zu 2000 Iterationen laufen lassen, aber ich denke, das ist eher Spezialfälle, die für Hobbykünstler wie mich eher übertrieben sind.

KI-Kunst erstellen ohne Programmierkenntnisse

Die Wombo Dream App bietet nun die Möglichkeit, diese Verbindung aus den beiden Algorithmen VQGAN und CLIP zu nutzen, ohne dafür Programmierkenntnisse zu haben. Die Texteingabe und die Auswahl des Stils wird quasi an die Programmierung weitergegeben und daraufhin erstellt die KI das entsprechende Bild.

Es gibt neben Wombo Dream aber noch andere Apps und Möglichkeiten, um Kunst mit einer KI und den Netzwerken VQGAN und CLIP zu erzeugen. Eine kleine (sicher unvollständige) Liste habe ich hier für euch erstellt:

Mein Tipp: Google Colab Pro

Meine aktuelle Wahl für das Generieren von ki-basierter Kunst über Texteingaben ist das Google Colab Notebook. Es ist grundsätzlich kostenlos und man versteht trotzdem schnell, wie es funktioniert. Wenn man dann nicht 10 Euro im Monat in Google Colab Pro investiert, erzeugt es die Bilder auch noch 6x schneller als im kostenlosen Modell.

Gerade am Anfang ist die Geschwindigkeit wichtig, da man als Neuling nicht ewig warten möchte, bis ein Bild fertig generiert ist. Und eine schnelle Generierung des fertigen „Kunstwerkes“ hilft letztendlich auch dabei, mit den Einstellungen und Anweisungen für die KI herumzuprobieren.