Banner
Dr. Tristan Behrens programmierte die Musik-Intelligenz. Foto: Alisa Hemmrich
Dr. Tristan Behrens programmierte die Musik-Intelligenz. Foto: Alisa Hemmrich

Dieser Würzburger macht Musik mithilfe künstlicher Intelligenz

Als Tristan Behrens während seiner Kindheit in den 80ern erste Synth-Pop-Musik aus dem Radio schallen hörte, wusste der studierte Informatiker vermutlich nicht, wie nahe er heute diesem Genre als Musiker kommen wird. Wobei: Musiker, großes Wort in diesem Zusammenhang. Die Musik macht für den Würzburger jemand anderes, etwas anderes. Ein Computerprogramm, das er selbst programmierte. „Dancing with my Robot“ heißt der neueste Track aus der Maschine, die beim AI Song Contest 2022 ebenfalls gelistet war und für die der Würzburger dann doch mehr machen muss, als es erst einmal scheint.

Tristan, was ist diese künstliche Intelligenz, die du da geschaffen hast?

Dr. Tristan Behrens: Diese KI ist ein tiefes neuronales Netz, das ich auf 400.000 Lieder trainiert habe – das sind Songs aus den 80ern drin, an denen sich auch ‚Dancing with my Robots‘ orientiert, aber nicht nur. Diese 400.000 Songs sind sogenannte Mididateien, die es online zu finden gibt.

Du sprichst von einem tiefen neuronalen Netz. Also einem Gehirn, das wir Menschen haben. Wenn das so menschlich klingt und auch noch Musik machen kann, wo unterscheiden wir uns noch von der KI?

Dr. Tristan Behrens: Die KI kann nur das. Wenn die auf Musik trainiert ist, besteht die nur aus einzelnen Noten. Die kann beispielsweise nicht Autofahren. Wir Menschen haben eine Wahrnehmung, Ideen und Inspirationen. Das hat die KI nicht. Das unterscheidet uns also maßgeblich.

Und trotzdem bastelt diese KI einen ganzen Song?

Dr. Tristan Behrens: Die KI ist nicht in der Lage, eine komplette musikalische Geschichte zu erzählen. Vier bis acht Takte erschafft die KI, manchmal sogar 40 Takte. Damit sie das kann, hat allein die Datenvorverarbeitung 30 Stunden auf einem Hochleistungscomputer mit 96 CPUs gedauert, das Training etwa eineinhalb Wochen auf 16 Grafikkarten.

Rectangle
topmobile2

Das ist dann schon das Training?

Dr. Tristan Behrens: Wenn man der KI eine Tonabfolge gibt, sagt sie die nächste Note voraus. Das ist eine statistische Verteilung. Was man als Mensch schön empfindet, das hat auch viel mit Statistik zu tun. Beispiel sind die vier Akkorde der Pop-Musik, aus denen alle Popsongs bestehen. Während des Trainings lernt die KI, die richtige Note vorherzusagen. Und dann wird sie belohnt, wenn es die richtige Note auf Basis von bekannten Songs vorhersagt.

Und das klappt mit allen Musikrichtungen?

Dr. Tristan Behrens: Das hat auch schon mit Musik von Johann Sebastian Bach funktioniert! Wenn man das mit Regeln ausdrücken muss, sind es etwa 300 musikalische Regeln, die zeigen, was erlaubt und verboten ist, damit die Musik als solche anerkannt wird.

Künstliche Intelligenzen sind extrem schnell, wir können uns das gar nicht vorstellen, wie zügig so eine KI eine Antwort auf gestellte Fragen hat. Wie lange dauert es mit der Musik?

Dr. Tristan Behrens: Es dauert üblicherweise 15 Minuten, bis ich da alles habe, was ich möchte. Ich bin dann aber schon ein Produzent und lege das Tempo fest, baue eine Bridge, mache das Arrangement oder lege fest, wie das alles klingen soll. Und dann kommt noch Gesang dazu, der in diesem Fall von meiner Verlobten Dominika übernommen wurde.

 

Dr. Tristan Behrens Verlobte hat den Text gesungen, die Vocals stammen also nicht von der Maschine.

Auch Songtext und Video stammen bei „Dancing with my Robot“ von künstlichen Intelligenzen.

Dr. Tristan Behrens: Mit der KI schreibe ich auch einen Songtext. Das ist eine andere KI, das ist ein sogenanntes ‚großes Sprachmodell‘, und das kann ich benutzten. Beim Video gebe ich ebenfalls einen Text ein, beispielsweise dass Roboter tanzen sollen. Am Ende ist das eine künstlich erzeugte Animation, die ein Video wurde.

Musiker hassen wahrscheinlich diese künstlichen Intelligenzen, oder?

Dr. Tristan Behrens: Nein, gar nicht. Ich spreche viel mit Musikern und die nehmen das selbst gut an. Weil keiner kann so viele Ideen gleichzeitig haben wie eine KI. Und mit diesen Ideen kann man dann arbeiten und das zu einem Song weiterentwickeln. Es gibt nur wenige, die ich kenne und die das aus technischer Sicht ablehnen.

Rectangle2
topmobile3

Musik ist aber mehr als die Samples, die die KI ausspuckt. Was bedeutet sie für dich?

Dr. Tristan Behrens: Musik ist viel, viel mehr, als die KI kann. Eine Musik nimmt einen auf eine Reise durch die Noten. Das hat viel mit dem Inhalt und mit der Emotion zu tun, die vermittelt wird. Mich treibt um, dass die meisten Menschen sehr musikalisch sind. Wir beschäftigen und umgeben uns viel mit Musik. Das hat was mit unserer Sprachbasiertheit als Mensch zu tun, nur drücken wir uns mit Musik anders aus.

Banner 2 Topmobile