(De-)Konstruktion des Klangs

Im voll besetzten Konstanzer Wolkensteinsaal wird es am Abend des 11. November 2025 ganz still, als die Physikerin Gillian Kiliani dazu ansetzt, eine Stimmgabel anzustimmen. Ihr Kollege Sebastian Gönnenwein steht mit dem Mikrofon zur Aufnahme direkt daneben. Glockenklar hallt der Ton durch den Saal und in der Projektion an der Wand erscheint eine einzelne helle, schnurgerade Linie. Eine zweite Stimmgabel mit anderer Tonhöhe folgt und schon erscheint ein zweiter, höher angesetzter Strich. Klang wird sichtbar.
Was im Kleinen beginnt, bauen Gillian Kiliani und Sebastian Gönnenwein von der Universität Konstanz zusammen mit den Bodensee PhilharmonikerInnen im Laufe des Abends zu ganzen Konzertspuren aus. Sie zeigen, wie sich die Schwingungen von Stimmen und Instrumenten in ihrer Zusammensetzung so kleinteilig unterscheiden lassen, dass sie wie ein Fingerabdruck gelesen werden können. Sie machen sichtbar, wie eine Violine klingt, wie ein gesungenes A mit nur einem Mausklick in ein I verwandelt werden kann und wie ein computergenerierter Ton von einem real gespielten zu unterscheiden ist.
Musik einmal ganz anders erleben
Den passenden Klang liefern sechs MusikerInnen mit verschiedenen Instrumenten. Während Gönnenwein mit einem Mikrofon die Töne jagt, verwandelt Kiliani diese in eine sichtbare Spur. Alles live, zum miterleben und mitraten. Damit das gelingt, erklären sie zunächst, wie die Spektrogramme zu lesen sind, die dank moderner Technik parallel zum Klang an der Wand erscheinen. Je heller der Strich, desto lauter. Je höher in der Grafik angesetzt, desto höher auch der Ton. Schnell wird dem Publikum klar, dass eine Violine sich in ihrem grafischen Abbild ganz anders verhält als eine Klarinette.
„Alle Instrumente haben einen Grundton, der gespielt wird. Die Violine hat zusätzlich aber ein sehr großes Spektrum an Obertönen, die weit über den Grundton hinausreichen“, erklärt Gönnenwein und zeigt das Ausmaß in der Grafik, die an die Wand projiziert ist. „Die Klarinette hat auch reichlich Obertöne, aber das Spektrum reicht längst nicht so weit, wie bei der Violine“, ergänzt er und zeigt auf das Abbild des Klarinettentons. Der Unterschied ist auch für Ungeübte leicht zu erkennen. Etwas schwerer wird es hingegen beim Vergleich zweier Blasinstrumente untereinander. Doch die beiden Forschenden führen das Publikum gekonnt durch das, was sie sehen und hören.
Zwischen den Erklärungen sorgt das Philharmonie-Ensemble mit kurzen Musikstücken für Entspannung und gibt dem Publikum damit Zeit, das gerade erklärte zu verarbeiten. Zu hören gibt es im Laufe des Abends Ausschnitte von Wolfgang Amadeus Mozarts „Divertimento“, die „Morgenstimmung“ von Edvard Grieg, Scott Joplins „The Favorite“ und zum Abschluss „Golliwogg’s cake walk“ von Claude Debussy. Warum wir diese Stücke als so schön und vielseitig wahrnehmen, liegt im wahrsten Wortsinn zwischen den Zeilen. Das offenbart vor allem der Vergleich mit Imitationen der Instrumente von einer künstlichen Intelligenz (KI), den Gönnenwein und Kiliani in der zweiten Hälfte des Abends darlegen.
Es sei gar nicht so einfach, überhaupt einen einzelnen Ton von der KI zu bekommen, veranschaulicht Kiliani anhand verschiedener Anekdoten aus der Vorbereitung für den Vortrag. Letztlich sei es ihr aber gelungen und so stellt sie nun den KI-Ton dem einer realen Querflöte gegenüber. Schnell zeigt sich: KI klingt gut, aber letztlich viel zu gut und zu perfekt. Der Ton ist zu sauber und hat keine Zwischentöne, während man bei der live gespielten Querflöte sogar noch den Luftzug der Flötistin zu vernehmen meint. Das Spektrogramm bestätigt das Gefühl: Zwar stimmt das Grundbild überein, bei genauer Betrachtung aber erscheinen in der Abbildung des realen Tons mehr Zwischenfarben, mehr Obertöne, mehr Schwingungen.
Jeder Ton zählt
Wie viel diese Zwischentöne ausmachen, zeigt Kiliani anhand eines einfachen Tests. Eine ausgebildete Sängerin betritt die Bühne und singt alle Vokale ein. Glockenklar. An der Wand erscheinen wieder die bekannten Linien in neuer Verteilung. Nun schneidet die Physikerin einzelne Elemente der Tonspur aus. Der erstaunliche Effekt: Durch den Verlust von nur drei Obertönen von vielen wird aus dem A ein I. Jeder einzelne Ober- und Zwischenton ist also wichtig. Richtig eindrucksvoll wird das Klangbild schließlich, als es das nächste Musikstück durchgehend aufzeichnet. Sechs unterschiedliche Instrumente erscheinen als Linienführung in Höhen und Tiefen an der Wand. Nicht als einzelne Linien, sondern als Gesamtbild mit allen Zwischentönen, das langsam dahinzufließen scheint.
Was zuletzt im Raum steht, ist die Frage: Kann die KI das auch? Besteht die Möglichkeit, dass der Algorithmus den Menschen in der Musik ablöst? Gönnenwein und Kiliani wagen den Test. Das Publikum darf Vorgaben zu Instrumenten und Stil machen. Es wünscht ein Stück im Latinostil, das von Harfe, Saxophon und Blockflöte eingespielt werden soll. Ein zu wilder Mix? Das findet auch die KI und ignoriert kurzerhand Harfe und Blockflöte. Im Ergebnis liefert sie ein Lied, das wohl am ehesten als Durchschnitts-Latino-Pop beschrieben werden kann. Klingt nicht schlecht aber auch nicht besonders. Die Philharmoniker können also erleichtert aufatmen, denn das Fazit des Abends lautet: Die KI kann die Tiefe und das Gefühl realer Musiker nicht ersetzen.
