Der Softwareentwickler Seth Forsgren und der Robotiker Hayk Martiros sind große Musikfans und darüber hinaus Bandkollegen. Daher stammt wohl die Inspiration, eine Bilderzeugungs-KI so anzupassen, dass sie Musik komponieren kann. Das Prinzip dahinter ist überraschend simpel.
Sie sind vielleicht schon mal auf eine dieser Websites gestoßen, auf denen eine künstliche Intelligenz ein Bild nach Ihrer Beschreibung generiert. Sie tippen also einfach einen beliebigen Text ein, zum Beispiel “Einstein und Michael Jordan spielen Fußball”, und die KI erschafft ein Kunstwerk nach Ihrer Beschreibung. Dafür wurde die künstliche Intelligenz mit unzähligen Bildern angelernt, um Objekte, Orte, Personen und sogar Zeichenstile zu erkennen und replizieren zu können. Forsgren und Martiros benutzen genau diese Methodik, um Musik zu erschaffen.
Musik lässt sich in vielen Formen darstellen, darunter auch in sogenannten Spektogrammen. Ein Spektogramm ist die visuelle Darstellung des zeitlichen Verlaufs eines Frequenzspektrums – oder einfacher ausgedrückt: Es verwandelt Musik in ein Bild. Ein Bild, mit dem sich künstliche Intelligenzen ebenso trainieren lassen wie mit Gemälden und Fotos.

Riffusion Projekt
Genau das haben Forsgren und Martiros in ihrem Projekt Riffusion getan. Die beiden nutzen das Open-Source-Projekt Stable Diffusion, um eine KI mit Spektogrammen unzähliger Songs mit dazu passenden Texten zu füttern. Mittels maschinellem Lernen lernt die Intelligenz, wie Text und Musik zusammenpassen und ist so in der Lage, aus neuen Texten eigene Lieder zu generieren. Mit überraschend überzeugenden Resultaten.
Ihre Ergebnisse haben die beiden Musikfans auf der Projektwebsite zu Riffusion zusammen gefasst. Noch interessanter ist aber der Zugang zur KI, über den Besucher Ihre eigenen Texte eingeben können und somit ihre eigene Musik erschaffen können. Die KI kann alle möglichen Informationen verarbeiten. So können Sie Ihr einfach ein Genre nennen und sich ein Gitarrensolo wünschen, Sie können aber auch einen spezifischen Künstler nennen, den die KI nachahmen soll. Forsgren beschreibt die Ergebnisse zwar als “ein wenig wie aus einer anderen Welt”, dennoch ist es verblüffend, wie gut die KI verschiedene Musikstile replizieren kann. Besonders interessant sind Musikstücke mit Gesang, denn die KI beherrscht keine wirklichen Sprachen. Stattdessen entsteht ein sprachliches Wirrwarr, aber eben passend zum Rhytmus und Genre.
Der Andrang auf die Website ist groß und laut Forsgren ist es schwierig, genügend Rechenleistung für die zahlreichen Anfragen zur Verfügung zu stellen. Doch wenn Sie etwas Geduld mitbringen, können Sie mit wenigen Worten Ihre eigene Musik komponieren.
Hat das Handy bald Gefühle? Künstliche Intelligenz nahezu menschlich