Making of: Wie eine KI Beethovens 10. Sinfonie vollendet hat
Original-Skizzen von Beethoven neben den Noten der künstlichen Intelligenz.
(Bild: Deutsche Telekom)
Ahmed Elgammal erklärt im TR-Interview, wie die KI tickt, die Beethovens "Unvollendete" zu Ende komponiert hat, und was das für Musik und Kunst bedeutet.
Am 9. Oktober 2021 wurde die von einer KI vervollständigte 10. Sinfonie von Beethoven erstmals öffentlich aufgeführt. Die KI stammt von Ahmed Elgammal [1], der an der Rutgers University im US-Bundesstaat New Jersey das Art and Artificial Intelligence Laboratory leitet. Elgammal forscht seit langem zu künstlicher Kreativität und hat ein Start-up [2], das Künstler mit KI experimentieren lässt. IM Interview mit Technology Review erklärt er, wie das Projekt funktioniert hat [3], und welche Konsequenzen solche KIs für Kunst und Künstler in Zukunft haben könnten.
Technology Review: Das Erste, was mir in den Sinn kam, als ich von Ihrer Arbeit gelesen habe, war, dass Sie etwas Ähnliches machen wie die Leute mit den großen Sprachmodellen: Sie beginnen mit einer Eingabeaufforderung und das Modell vervollständigt diese, richtig?
Ahmed Elgammal: Absolut richtig. Das Modell, das wir verwenden, ist den Modellen, die bei der Verarbeitung natürlicher Sprache verwendet werden, sehr ähnlich. Denn im Grunde ist Musik eine Sprache. Musik ist eine Folge von Noten mit einer gewissen Dauer, das heißt, eine Folge von Symbolen, und Sprache ist eine Folge von Wörtern – das ist also eine sehr natürliche Parallele.
Aber wir haben verschiedene Modelle entwickelt. Es gibt im Wesentlichen vier verschiedene Aufgaben, die wir bewältigen müssen. Jedes Modell, das diese Aufgabe löst, hat eine etwas andere Architektur. So gibt es die Aufgabe, ein Thema auszuwählen und darauf basierend eine längere Musiksequenz zu entwickeln. Dann gibt es eine Harmonisierung, die zu einer Melodie führt. Dann gibt es noch eine so genannte Überbrückungsaufgabe. Dabei liegen zwei Musiksegmente vor oder es sollen ein oder zwei Elemente hinzufügt werden. Die Aufgabe ist es, diese in der Mitte zu verbinden und auch zu lernen, wie man sie abschließt. Die vierte Aufgabe schließlich ist die Orchestrierung der gesamten Komposition.
Unterscheidet sich die Architektur der einzelnen Modelle oder ist sie im Grunde bei allen gleich?
Alle Modelle basieren hauptsächlich auf der Transformer-Architektur aus der Sprachverarbeitung. Wir haben zum Beispiel Skizzen. Sie sind Ausgangspunkte für das Hauptthema, das zweite Thema und solche Dinge, und wir wollen im Grunde genommen Beethovens Art der Entwicklung lernen, die der natürlichen Sprachverarbeitung sehr ähnlich ist. Wir alle wissen jedoch, dass, wenn man anfängt zu schreiben und KI verwendet, um einen Satz in einem neuen Text fortzusetzen, früher oder später im Grunde genommen Unsinn dabei herauskommt. Die KI hält sich nicht wirklich an eine kohärente Geschichte, und das war mehr oder weniger eines der größten Probleme, die wir hatten.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung [4].
Die erste Herausforderung besteht also darin, wie wir diese Modelle so trainieren können, dass sie sich an das Thema halten. Wir haben also ein musikalisches Thema, und man muss bei der Entwicklung darauf achten, dass die KI nicht von diesem musikalischen Thema abweicht. Das ist etwas ganz anderes als bei der Sprache, denn wenn man schreibt, hat man einen Gedanken im Kopf. Um das zu erreichen, müssen wir also zuerst die Modelle ändern, so dass eine hohe Aufmerksamkeit auf dem Thema bleibt. Außerdem brauchten wir Trainingsdaten, die auf eine spezifische Weise gelabelt sind. Wir haben also Musikexperten hinzugezogen, die markiert haben, dass dies ein Thema ist und dies eine Entwicklung.
Gesamte klassische Musik zu Beethovens Zeiten als Trainingsdaten
Große Sprachmodelle funktionieren meistens erstaunlich gut. Das liegt aber an einem sehr großen Datensatz für das Training und daran, dass es sich um sehr, sehr große Modelle handelt. Aber ich glaube, eines Ihrer Probleme ist der Mangel an guten Trainingsdaten in der Musik, oder haben Sie genug Daten?
Ja, das ist eines der Probleme, mit denen wir zu kämpfen haben. Wir haben nur neun Sinfonien von Beethoven. Als Erstes haben wir also vortrainierte Basismodelle verwendet, die auf einer großen Gruppe von Beispielen gelernt haben. Wir haben die gesamte klassische Musik verwendet, die wir haben – alles, was Beethoven wahrscheinlich gehört hat, als er aufwuchs. Auf dieser Grundlage kann man nun die Feinabstimmung vornehmen und die Modelle auf Performance ausrichten.
Aber ehrlich gesagt denke ich, dass Musik in gewissem Sinne viel einfacher ist als Sprache, weil Musik eine sehr strukturierte Sprache ist. Sprache hat eine semantische Ebene, und ohne explizite Beschreibung der Semantik braucht man einen riesigen Korpus an Trainingsdaten, um das fehlende Verständnis der Semantik zu kompensieren. Musik ist in erster Linie eine Abfolge von Wörtern mit einer mathematischen Struktur, die einer Vielzahl von Beschränkungen unterliegt. Das ist also uns zum Vorteil gereicht, aber andererseits reagiert man in der Musik sehr empfindlich auf jede falsche Note.
War es der endgültige Prozess der Ausgabe, der in einem Schritt gemacht wurde, oder haben Sie ihn in verschiedene Schritte aufgeteilt und alles zusammengeführt?
Letzteres. Wir haben Beethovens Skizzen und ein gewisses Verständnis davon, was das Hauptthema sein würde und was als zweites Thema kommt. Wir haben also die vorliegenden Musiksegmente, die Seeds, verwendet, um diese Abschnitte von der KI ausfüllen zu lassen, und dann wird alles am Ende zusammengesetzt.
"Die Emotionen sind in Beethovens Noten kodiert"
Und was die Rechenzeit, den Rechenaufwand angeht – wie viel Rechenleistung braucht man für eine solche Aufgabe?
Nun, wir haben viele Monate lang kontinuierlich trainiert, im Grunde fast ein Jahr lang, weil wir viele Iterationen an diesen Modellen durchgeführt haben. Es gibt also jeden Tag etwas zu trainieren, um die Ergebnisse zu erklären und Verbesserungen und Entwicklungen in diesem Projekt vorzunehmen.
Und was machen Sie jetzt, nachdem Sie das Projekt abgeschlossen haben? Werden Sie das Modell veröffentlichen?
Wir arbeiten an einer Reihe von Veröffentlichungen, aber Veröffentlichungen erfordern eine viel tiefere Validierung. Ich denke, der schwierigere Teil ist die qualitative Bewertung. Wir bekommen viele Reaktionen von Leuten, denen die Musik sehr gut gefällt und die keine Experten sind, aber auch von anderen, die der ganzen Idee eher skeptisch gegenüberstehen. Als wir anfingen, wurde selbst mir gesagt, dass es keinen Sinn ergibt, weil KI-Musik nicht so emotional ist wie Beethoven. Es ist, als ob man so etwas wie einen Turing-Test machen muss, oder?
Ja, ich verstehe, dass die KI nicht die emotionale Intention eines Komponisten hat. Aber ich glaube auch, dass diese Emotion in Beethovens Noten kodiert ist, und wenn die KI daraus gelernt hat, wird sie natürlich in der Musikerzeugung erscheinen. Dennoch ist es furchtbar schwer, jemandem das zu erklären, der keine Ahnung von maschinellem Lernen oder KI hat.
Wir müssen jetzt darüber nachdenken, wie wir die Reaktionen der Menschen quantifizieren und testen können. Wir arbeiten auch an einer Reihe von Anwendungen aus diesem Projekt heraus, da jedes der Modelle, wie ich bereits erwähnt habe, einen Beitrag zum Entwicklungsmodell leistet. Das Orchestrierungsmodell zum Beispiel ist wirklich erstaunlich. Die Möglichkeit, eine Komposition zu nehmen und das gesamte Orchester zu bestimmen, ist im Grunde etwas, das ich so noch nicht gesehen habe.
Haben Sie eine Idee für die Anwendung dieses Modells? Oder ist das für Sie einfach ein Forschungsprojekt?
Zu diesem Zeitpunkt war es ein Forschungsprojekt in Anbetracht des 250-jährigen Jubiläums von Beethoven [6]. So wie für die bildende Kunst ist es mein Ziel, Künstlern diese Art von Werkzeugen an die Hand zu geben. Ich habe ein Start-up namens Playform gegründet. Damit müssen sich Künstler nicht mehr darum kümmern, wie man programmieren lernt. Sie melden sich einfach an, laden Bilder hoch, trainieren die KI und erhalten die Ergebnisse. Es ist erstaunlich, wie Künstler dies nutzen und die KI einsetzen, um neue Ideen zu bekommen. Manche Künstler betrachten die Software als eine Art Studioassistenten. Das ist es, was mich über das Labor und die Forschung hinaus interessiert: wie diese Art von Modellen die menschliche Kreativität verändern wird. Dass sie es tut, davon bin ich überzeugt. Aber es wird definitiv nicht dazu führen, dass KI die Arbeitsplätze unserer Künstler übernehmen. Klar, man kann eine Maschine bauen, die autonome Kunst machen kann. Aber wen interessiert das schon? Das ist etwas, das man sich einmal anschaut und dann ist es einem egal, denn Kunst ist etwas, das Menschen für andere Menschen erschaffen.
(jle [7])
URL dieses Artikels:
https://www.heise.de/-6219032
Links in diesem Artikel:
[1] https://sites.rutgers.edu/ahmed-elgammal/
[2] https://www.playform.io/
[3] https://www.heise.de/news/Beethovens-10-Sinfonie-mit-KI-vollendet-Urauffuehrung-am-Samstag-6209147.html
[4] https://www.heise.de/Datenschutzerklaerung-der-Heise-Medien-GmbH-Co-KG-4860.html
[5] https://www.heise.de/
[6] https://www.bthvn2020.de/
[7] mailto:jle@heise.de
Copyright © 2021 Heise Medien