Neues KI-Werkzeug produziert Songs mit Stil und Stimme bekannter Künstler

Pop-Musik ist für Computer schwieriger als klassische. OpenAI hat jetzt eine Software veröffentlicht, die eindrucksvoll den Stand der Technik dabei zeigt.

In Pocket speichern vorlesen Druckansicht 20 Kommentare lesen
Straßenmusikanten

Garantiert nicht mit KI: Eine Gruppe Straßenmusiker.

(Bild: "Edinburgh Buskers" Anthony O'Neil CC BY-SA 2.0)

Lesezeit: 2 Min.
Von
  • Douglas Heaven

Die Forschungsorganisation OpenAI hat ein neuronales Netz namens Jukebox veröffentlicht, das künstlicher Pop-Musik eine neue Facette gibt: Das Werkzeug kann eingängige Songs in vielen unterschiedlichen Stilen generieren, von angesagter Teenager-Musik über Country und Hip-Hop bis zu Heavy Metal. Es kann sogar singen, einigermaßen jedenfalls.

Gefüttert mit einem Genre, Künstler und Textzeilen, produziert Jukebox passable Potpourris im Stil bekannter Künstler wie Kate Perry, Elvis Presley oder Nas. Alternativ kann man die ersten paar Sekunden eines Songs eingeben, der dann von der Software vervollständigt wird.

Computergenerierte Musik gibt es seit mindestens 50 Jahren und KI hat schon beeindruckende Beispiele für Klassik- oder Elektronik-Kompositionen geliefert. Bei Video-Spielen wird häufig Computer-Musik im Hintergrund eingesetzt, deren Dynamik in Echtzeit auf Aktionen von Spielern reagiert. Doch für Maschinen ist es weitaus leichter, sich nach Bach anzuhören statt nach den Beatles. Denn die mathematischen Grundlagen von klassischer Musik eignen sich besser für die symbolische Abbildung von Musik, mit der viele KI-Komponisten arbeiten. Pop-Songs sind zwar einfacher, aber anders.

Trainiert wurde Jukebox mit 1,2 Millionen Stücken, wobei die Audio-Daten selbst verwendet wurden statt Abstraktionen für Tonhöhen, Instrumente oder Timing. Dazu allerdings brauchte es ein neuronales Netz, das in der Lage ist, sogenannte Abhängigkeiten zu erkennen. Dies sind Elemente wie eine Melodie, die sich in den drei bis vier Minuten eines typischen Pop-Songs wiederholt – für KI eine Herausforderung. So muss Jukebox Millionen Zeitstempel pro Lied verwalten. Der Sprach-Generator von OpenAI dagegen braucht für die Auswertung von Texten nur etwa tausend Zeitstempel.

Richtig gut funktioniert das System noch nicht. Die Ergebnisse sind zwar technisch gesehen beeindruckend, führen jedoch tief in das so genannte Uncanny Valley, klingen also echt, aber doch irgendwie befremdlich. Das erklärte Ziel von OpenAI ist allgemeine künstliche Intelligenz, die noch etwas auf sich warten lässt. Aber Jukebox zeigt erneut, wie gut neuronale Netze darin werden, Menschen zu imitieren, und dies lässt die Grenze zwischen realer und digitaler Welt unscharf werden.

So wehrt sich der Rapper Jay-Z neuerdings juristisch gegen Deep-Fakes, in denen er zum Beispiel Lieder von Billy Joel singt. OpenAI gibt dazu an, auch die Bedeutung von KI für die Frage von Urheber-Rechten erforschen zu wollen.

Mehr über KI

(sma)