3. September 2022 – Vorhang auf! In der Semperoper in Dresden stellt sich ein bislang unbekanntes Gesangstalent dem kritischen Urteil eines fachkundigen Opernpublikums. Nachdem im August noch Andrew Lloyd Webbers Katzen und Anfang September Papageno und die Königin der Nacht auf der Opernbühne begeisterten, stand im September eine Künstliche Intelligenz (KI) im Scheinwerferlicht.
Mit Chasing Waterfalls hat die Semperoper ein innovatives Opernprojekt auf ihren Spielplan genommen: Zum Ensemble gehört neben der sächsischen Staatskapelle, sechs Sängerinnen und Sängern auch der „Algorithmus, Ego fluens“, eine Künstliche Intelligenz, die – wenig verwunderlich – sich selber spielt. Chasing Waterfalls bietet damit die erste Live-Performance einer Künstlichen Intelligenz als Opernsängerin.
Klassische Oper oder nicht? Darüber lässt sich trefflich streiten. Multimediale Effekte und eine Fülle von digitalen Elementen drückten der Oper ihren Stempel auf. Die ausgebildeten Stimmen der sechs Mitwirkenden trafen auf eine sehr moderne Komposition, Videoeinspielungen, Lichteffekte, einen acht Meter hohen Wasserfall als zentrales Bühnenelement – und eben eine Künstliche Intelligenz.
Oper mit Digitalisierung zu verbinden und so die Leistungsfähigkeit der KI auszuprobieren – das klingt für die digitale Seite wie ein interessantes Experiment. Für die klassischen Kunstschaffenden erzeugte die Einbindung des virtuellen Ensemble-Mitglieds ein ganzes Bündel neuer Herausforderungen. Wo bei einer klassischen Oper die Akteure aufeinander reagieren und der Dirigent die Instrumentalisten im passenden Tempo durch die Aufführung leitet, da wartet Chasing Waterfalls mit einem strikten Ablauf auf.
Und Dirigent Angus Lee hat die herausfordernde Aufgabe, nicht nur das Kammerorchester zu dirigieren, sondern die menschlichen Akteure mit den elektronischen Hintergrund-Sounds und den zeitlich fixierten Auftritten der KI (via Click Tracker) zu koordinieren – live und auf den Punkt. Orchestrierung 2.0, wenn man so will.
Angus Lee komponierte auch den größten Teil der KI-Oper in Zusammenarbeit mit dem Berliner Studio for Sonic Experiences kling klang klong. „Wir haben versucht, Brücken zu bauen, um unsere sehr unterschiedlichen Klangwelten zu verbinden“, resümiert der aus Hongkong stammende Musiker. Kling klang klong hat die elektronischen Sounds, Lee die klassischen Passagen beigesteuert und alles zusammen in seiner ersten Opern-Partitur zusammengefasst.
Sven Sören Beyer, Regisseur
Aber der eigentliche Kopf hinter dem innovativen Opernprojekt ist der Regisseur und Medienkünstler Sven Sören Beyer. Schon seit 1999 widmet er sich gemeinsam mit dem Berliner Künstlerkollektiv phase7 performing.arts performativen Inszenierungen und Installationen. Immer wieder lotet er dabei das Spannungsfeld zwischen Mensch und Maschine aus. In diesem neuesten Projekt reflektierte er den Einfluss, den Künstliche Intelligenz mittlerweile auf unser Leben gewonnen hat.
„Im täglichen Leben sind wir damit konfrontiert, auch wenn wir es nicht wollen oder wissen. Speziell unser Social Media Live wird davon beeinflusst. Wir schaffen unsere eigenen Digital Twins, und das ist bei uns auf der Bühne auch zu sehen.“
Johann Casimir Eule, der Chefdramaturg der Semperoper, erkannte das Innovationspotenzial, als Beyers Vorschlag vor etwa zwei Jahren auf seinem Tisch landete: „Wir arbeiten bereits seit geraumer Zeit mit Forschungseinrichtungen zusammen und konnten das nun verbinden, um mit der ‘alten Tante’ Semperoper in neue technische Dimensionen vorzustoßen. Vielleicht kann diese Art des Musiktheaters wegweisend werden in 15 oder 20 Jahren.“ Deswegen stimmten die Beteiligten auch darin überein, dass bei der Entstehung der Oper KI eine bedeutende Rolle zukommen sollte.
Sechs Sänger aus Fleisch und Blut begleiteten die KI auf der Bühne.
Mancher mag sich angesichts der Geschichte an Tron erinnert sehen. In dem wegweisenden Disney-Film aus dem Jahr 1982 fand sich Programmierer Jeff Bridges als Gefangener innerhalb eines Computer-Netzwerks wieder und versuchte, mithilfe seines Programms Tron (einer Art Alter Ego) wieder zu entkommen – und dem Master Control Program, dem programmatischen Alter Ego seines Gegenspielers David Warner, das Handwerk zu legen.
Was damals pure Science Fiction war, erhält mit Chasing Waterfalls 40 Jahre später einen realen, teils bitter-dystopischen Beigeschmack. Die norwegische Sopranistin Eir Inderhaug vom Ensemble der Bayerischen Staatsoper begegnet nicht nur einem „digitalen Zwilling“, sondern gleich sechs digitalen Abbildungen und muss sich mit diesen auseinandersetzen.
Damals ein Laser, heute ein einfacher Login: Als sich das reale, physische Ich in seinen Computer einloggt, wird es mit seinen digitalen Abspaltungen konfrontiert; den vielen Spuren, die es in der digitalen Welt des Internets hinterlassen hat. Es begegnet seinen Digital Twins, den Egos fluentes. Sie agieren in der virtuellen Welt als selbstständige Persönlichkeiten.
Letzten Endes verbünden sie sich sogar gegen das physische Ich und greifen die Wirklichkeit an. Wird es dem Ich gelingen, sich als reale Person gegen die auflösenden Grenzen zu behaupten? Die Grenzen zwischen virtueller und physischer Welt verwischen auf der Bühne – die Bühnengestaltung unterstreicht dies nachhaltig.
Und in der realen Welt? Beyer will mit dem Stück auch zum Diskurs darüber beitragen, wie viel von unserer Persönlichkeit schon heute digital ist und führt damit auch zu klassischen Fragen wie: Was ist Wahrheit (in einer zunehmend digitalisierten Welt)? Was macht den Menschen aus?
Nico Westerbeck, Technical Lead KI
Chasing Waterfalls entführte Zuschauer und Zuhörer knapp 70 Minuten erfolgreich in eine Welt, in der Oper und Digitalisierung verschmolzen. Und die Künstliche Intelligenz trug an diesem Abend einen wichtigen Teil bei, bevor sie weiterzog zu ihrem nächsten Engagement in Hongkong, der Heimat von Komponist Angus Lee. Lampenfieber hatte sie wohl nicht und wird sie auch in Hongkong nicht haben – aber vielleicht die Allüren einer Operndiva? Wie bringt man eine KI eigentlich zum Singen?
„Bei all den Errungenschaften, die sich KI schon ans Revers heften kann: Eine Opern-KI von der Stange gibt es noch nicht“, schmunzelt Nico Westerbeck. Er hat als Technical Lead mit der KI gearbeitet, sie vom Einsteiger in den Mädchenchor hin zu einer Opern-Solistin trainiert. Westerbeck ist Informatiker und Data Scientist mit Leidenschaft. Seit 2018 arbeitet er bei der T-Systems Multimedia Solutions (MMS) in Dresden. Seine Themenschwerpunkte sind Deep Learning für Sprache und Text, Reinforcement Learning und Security. Er und das MMS-Team realisierten die innovativen Ideen der Künstler und erweckten die KI zum Leben.
Dabei ist es eigentlich falsch, von DER KI zu sprechen. Insgesamt waren mehrere KIs involviert. Die Librettistin Christiane Neudecker arbeitete mit GPT 2 bzw. 3, um Texte zu entwickeln, eine weitere KI lernte Noten zu lesen, eine dritte das Singen. Ein Team von T-Systems MMS war maßgeblich in die Entwicklung der Gesangs-Ki involviert.
„Ganz von Null haben wir mit unserer Opernsängerin nicht angefangen. Wir bauen auf Forschungsergebnissen aus dem Text-To-Speech-Bereich auf, vor allem auf den Arbeiten von Chen et al. (2020) („HifiSinger“) und Liu et al. (2021) („DiffSinger“), welche ein Text-To-Speech System in ein Singing Voice Synthesis System umgebaut haben.“ Auch im weiteren Verlauf des Projekts blieb die Recherche nach aktuellen Forschungsergebnissen ein ständiger Begleiter des MMS-Teams: Singende KIs sind Neuland. Westerbeck wühlte sich durch Dutzende von Veröffentlichungen, um die Impulse zu finden, die eine KI zum Singen bringen würden.
Doch vom „Guten Tag. Wie kann ich Ihnen helfen?“ zum „Der Hölle Rache kocht in meinem Herzen“ war noch ein Stück Weges zu gehen – und einiges an Code zu schreiben. Wie lässt sich eine Gesangsstimme präzise beschreiben? Sprache, und mehr noch Gesang, sind zu komplex. Das gilt insbesondere auch für deren digitale Abbildung. Eine typische Musikdatei mit 44 kHz enthält 44.000 einzelne Schalldrücke in einer Sekunde. Wie viele Worte kann ein Mensch in dieser Zeit sprechen oder singen?
Als Beverly-Hills-Cop kommt US-Schauspieler Eddie Murphy im Kinofilm gefühlt auf 50 Worte, in einer Oper sind es vielleicht fünf. Wie verteilen sich nun diese 44.000 Impulse auf die fünf Worte (und die Töne)? Wo beginnt welches Phonem (Grundlaut der Sprache)? Eine Puzzle-Arbeit. Eine umfassende dazu.
Das MMS-Team entschloss sich, einen pragmatischen Weg zu gehen. Die KI sollte von einem Vorbild lernen. Kling klang klong lud Eir Inderhaug, die das reale Ich in der Opernaufführung übernehmen würde, ins Studio nach Berlin ein. Dort sang sie zunächst 50 Kinderlieder ein, die der MMS digitalisiert zur Verfügung gestellt wurden. Warum Kinderlieder? „Eine Veröffentlichung, die wir lasen, empfahl Kinderlieder“, erläutert der KI-Spezialist, „das war auch ein probater Ansatz.
Aber in einer späteren Phase des Projekts zeigte sich, dass wir so nicht ans Ziel kommen. Rudolph, the Red Nose Reindeer ist eben keine Opernarie – auch wenn es von einer Opernsängerin dargeboten wird.“ Also war ein zweiter Besuch im Studio fällig: Inderhaug musste nachlegen und sang noch 20 Opernarien ein, die letzten Endes weitere zehn Minuten Trainingsmaterial ergaben.
Im Ergebnis waren es 70 Lieder, die dem KI-Team als Datenquelle dienten und ihr zeigen sollten, wie Gesang funktioniert. „Wir hatten damit ein ausreichend breites Spektrum an Daten, um Overfitting zu vermeiden“.
Die eingesungenen Lieder dienten als Datenquelle für die KI.
Im nächsten Schritt entwickelten die KI-Experten der T-Systems MMS eine Architektur für ein Neuronales Netz, das in der Lage ist, Noten und Texte als Input aufzunehmen und daraus eine Sound-Ausgabe zu generieren. Das Team entschloss sich, die Komplexität der Aufgaben im Neuronalen Netz zu verteilen und erzeugte eine Pipeline aus mehreren Neuronalen Sub-Netzen. „In ein paar Jahren wird das vielleicht nicht mehr nötig sein, aber die Komplexität, vor der wir standen, machten diesen Kniff notwendig.“ Diese Netze waren zunächst ungefähr so musikalisch wie eine Stubenfliege auf Nahrungssuche.
Zumindest hörte sich das erste Resultat so an. Kein Wunder: Die ersten Parameter für das Neuronale Netz wurden von Kollege Zufall beigesteuert – ein Zufallsgenerator sorgte für die initiale Befüllung.
Das Training erfolgte in sogenannten Epochen. Innerhalb einer Epoche wurde der komplette vorhandene Datensatz der KI gezeigt – der zuvor in 10.000 Schnipsel zerlegt wurde. So kamen in insgesamt 300 Epochen drei Millionen „Trainingssessions“ zustande.
Während jeder Verarbeitung („Forward Pass“) innerhalb einer „Epoche“ des Trainings wurde der KI am Ende der Spiegel vorgehalten: Die KI-„Arie“ wurde mit der professionell eingesungenen Version von Eir Inderhaug verglichen. Dieses schonungslose Loss-Review bewertete die Leistung des Modells. Die quantifizierten Ergebnisse werden dann automatisch in das Neuronale Netz zurückgespiegelt, das die ursprünglich zufälligen Parameter justiert.
„Am Anfang des Trainings macht ein Neuronales Netz große Fehler. Das ist nichts Ungewöhnliches“, erläutert Westerbeck, „der Zweck des Trainings ist es, den Fehler zu reduzieren und graduell immer besser zu werden.“ Das Neuronale Netz erkannte zunehmend zu laute oder zu hohe Töne, lernte dazu und sang beim nächsten Versuch besser. Das zweite Produkt (nach zehn Epochen) klang erstmals nach Gesang. „Etwa wie ein Radio, das nicht exakt auf einen Sender eingestellt ist – oder wie geheime Botschaften aus dem All, die aus dem kosmischen Hintergrundrauschen extrahiert werden“, schmunzelt Westerbeck.
Doch für die Opernschaffenden natürlich noch nicht ausreichend. Eule resümiert über die Entwicklung der KI – und man merkt seinen Worten ein leichtes Entsetzen der klassischen Opernschaffenden zu Beginn des Projekts an: „Als wir die ersten Gesangsproben hörten, waren wir uns unsicher, ob wir das Experiment wirklich wagen sollten“, so Dramaturg Eule.
Am Ende stand ein Neuronales Netz, das nicht nur wenige Fehler macht, sondern ein allgemeines Verständnis fürs Singen hat. „Und damit kann es im besten Fall jeden beliebigen Song für Menschen ansprechend singen – mit der Stimme von Eir Ingerhaug“. Eine solche „Generalisierung“ macht jeden Data Scientist glücklich.
Für die menschlichen Darsteller war das Singen mit der KI eine Herausforderung.
Doch – wer jetzt meint, dass die KI nun immer die gleiche Version des Liedes abliefert, irrt sich. Das Neuronale Netz bleibt dynamisch und ändert die Wiedergabe immer wieder leicht ab. Weder Zuhörer noch Gesangstrainer können sagen, was konkret zu hören sein wird – nur eben, dass ein „hörbares“ Ergebnis entsteht, das die eingespielten Noten und den Text passend wiedergibt.
Das Neuronale Netz wird „nur“ ein optimiertes Ergebnis liefern, das immer noch eine kleine Abweichung vom Original zeigt – und das ist legitim: Wie stark ein Sänger ein R rollt oder ein S zischt, bleibt ihm überlassen. Das gilt auch für die KI. Sie ist in dieser Varianz vielleicht ein wenig menschlicher als man denken mag.
Für die Aufführung wollten die Macher aber noch eins draufsetzen. Die Algorithm, Ego Fluens, sollte nicht nur Lieder singen, zu denen es die (bislang unbekannten) Noten und Texte aus der Partitur bekam, sondern es war auch eine 4-minütige Passage vorgesehen, in der sie improvisieren sollte. Ein Extempore. Für diese Passage bekommt die KI weder Text noch Noten vom Menschen.
Durch die Arbeit des Teams bei kling klang klong gelang es, das KI-Sprachmodell GPT-3 und ein Noten-Kompositionsmodell zu kombinieren, um dem Gesangssynthese-Modell (der Gesangs-KI) für jede Aufführung andere Texte und Noten zu liefern. Diese erhielt die Gesangs-KI während der Aufführung – die Verantwortlichen wollten vorher überprüfen, ob das Libretto sauber war, also nicht beispielsweise sexistisch. Man weiß nie bei KIs...
In den Passagen, bei denen Texte und Noten im Vorfeld festgelegt waren und die KI der Partitur und dem Libretto folgt, sollte auch das fachkundige Publikum keine Abweichungen bemerken. „Hier war das Resultat innerhalb gewisser Parameter ziemlich klar – und wir ziemlich entspannt“, blickt Westerbeck zurück. Und tatsächlich lieferte die KI zwar kein Sopranisten-Weltklasse-Niveau, aber sie sang gut verständliche Texte sowie passende Töne.
Deutlich angespannter war das Projektteam aber für das Live-Experiment der „Improvisationsphase“. Würde die KI sich auch hier gut schlagen? Jeder menschliche Schauspieler braucht eine gehörige Portion Improvisationstalent – so soll beispielsweise in den Drehbüchern der Marx Brothers bisweilen die Regieanweisung „Harpo does something funny“ gestanden haben – und er lieferte immer. „Auch wenn wir die KI gut vorbereitet hatten, eine Garantie hatten wir nicht. Wir drückten die Daumen, dass sie nicht auch etwas Lustiges machen würde“, gesteht Westerbeck.
In Szene 5 war es dann so weit: Die menschlichen Akteure legten sich hin, rotes Licht an: Bühne frei für die KI mit ihrer Solo-Arie. Und auch hier machte sie einen guten Job. GPT 3 entwickelte einen passenden Text, das Notenmodell eine passende Melodie zu den vorgegebenen Harmonien und die Gesangs-KI übersetzte das Ganze in Gesang. Dabei entwickelt die KI eine eher klassische Melodie, die sich doch deutlich von dem sehr experimentell wirkenden Rest der Oper absetzte.
Die KI schlug sich also in der Improvisationsphase auch als Komponistin tadellos. Sie verarbeitete den frisch generierten Text und die unbekannten Noten im Echtzeit-Modus in eine Live-Arie. Das Experiment war gelungen: Die Opern-KI hatte sich bewährt. Sogar das Libretto überzeugte manchen Kritiker. Kostprobe gefällig? Und wenn die KI versichert: „I am so much more than a machine ... My heart is just a cold hard drive …“ – wirkt das tatsächlich so, als ob sie sich Gedanken um ihre eigene Existenz mache.
Und was kommt jetzt? Wer eine neue KI-Callas aus dem Rechner erzeugen kann, der könnte auf die Idee kommen, auch die digitale Oper zu erfinden. Ein neues Geschäftsmodell – ganz ohne Diva-Allüren wie „Ich bin heute nicht bei Stimme“ und langwierige Verhandlungen über die Gage. Sven Sören Beyer glaubt trotz des erfolgreichen Piloten nicht daran: „Ich glaube nicht, dass menschliches Schaffen damit ersetzt wird, sondern dass ein Katalysator entsteht. Ich glaube auch, dass wir am Anfang einer großen Schwelle stehen. Optimierung wird mehr und mehr in Kreativität wandern und uns Tools an die Hand geben, die wir uns noch gar nicht denken können.“
Entwarnung also für alle Kulturschaffenden – Musik bleibt die Domäne des Menschen, die KI wird sich nicht bei einer Künstleragentur listen lassen, aber ihre Rolle als Unterstützer Kulturschaffender finden. Diese Sicht teilte in der letzten Ausgabe auch KI-Experte Pavol Bauer. Damit wird Algorithmus Ego Fluens nach Rückkehr von der Hongkong-Reise in diesem November erstmal Urlaub in den Datenarchiven der MMS machen. Auftritt bei der Weihnachtsfeier nicht ausgeschlossen.
Zunehmend melodiöser: Version drei nach 150 Epochen, Version vier, Version fünf mit der vollen Pipeline. Für Experten: Die Pipeline-Teile bestehen aus zuerst einem Transformer-basierten akustischen Modell, einem Diffusion Decoder und einem Gan-basierten Vocoder.
Am Ende stand ein Neuronales Netz, das nicht nur wenige Fehler macht, sondern ein allgemeines Verständnis fürs Singen hat. „Und damit kann es im besten Fall jeden beliebigen Song für Menschen ansprechend singen – mit der Stimme von Eir Ingerhaug“. Eine solche „Generalisierung“ macht jeden Data Scientist glücklich.