Gepostet von Martin Sturm am 22. Juni 2023 um 1:19
Anfang Juni war es wieder so weit: Die capella-Familie traf sich in Lohfelden bei Kassel zur traditionellen capella-Konferenz. Die „capella-Familie“, das sind alle Beschäftigten und Autoren zusammen. Übers Jahr verteilt sehen und sprechen wir natürlich in ganz verschiedenen Zusammensetzungen über alle möglichen Themen. Das Besondere an der Konferenz ist, dass hier alle einmal zusammenkommen, um eine größere Perspektive einzunehmen.
Dabei passen alle noch geradeso um einen größeren Küchentisch. Die Atmosphäre ist daher weniger trocken als bei großen Konferenzen mit Rednerpult und Mikrofon. Sie ist eher ein engagierter Austausch unter Kollegen.
Die Themen decken ein breites Spektrum ab: Eine kurze Rückschau auf die Zeit seit der letzten capella Konferenz ist natürlich Pflicht. Wie kommen die letzten Veröffentlichungen (z.B. audio2score pro 4 und tonica web) bei Nutzern an? Wie hat sich capella academy entwickelt und wie lief der Start von capella community?
Den meisten Raum nehmen aber Fragen ein, die in die Zukunft weisen: Lässt sich die Erkennungsqualität von capella scan mit Künstlicher Intelligenz weiter steigern? Wie sieht es mit neuen Features für künftige capella-Versionen aus? Aber auch vermeintlich „kleine“ Themen finden Raum: Wie steht es um die Unterstützung für blinde Nutzer von capella?
Zwischendurch bei einer Tasse Kaffee blieb auch ein wenig Zeit für schöne Nebensachen: Wie liefen die ein oder anderen Konzertprojekte (die meisten von uns sind ja aktive (Amateur-)Musiker), oder – für mich ein Highlight – wie sahen die Pappschachteln aus, die in früheren Zeiten als Verpackung für die Datenträger mit capella-Programme dienten… Im Archiv sind einzelne Exemplare noch erhalten… Da wurden Erinnerungen wach.
Abends ließen wir dann noch ein klein wenig die Seele baumeln. Und das durchaus wörtlich: bei einem Besuch der Grimm-Welt in Kassel waren alle ganz heiß darauf, sich mit VR-Brille auf dem Kopf in den Himmel zu schaukeln.
Tags darauf wurde es noch einmal ernst. In etwas kleinerer Runde ging es um technische Fragen: Wie halten wir den „Unterbau“ von capella auf dem aktuellen Stand? Was ist wichtiger: Die Umstellung auf VST3 und 64-bit oder ein neues Feature – gar nicht so einfach zu entscheiden. Und wie organisieren wir das Detailwissen über die vielen Programmzeilen so, dass möglichst viele Köpfe das Wissen haben, um capella zukünftig weiterzuentwickeln?
Nicht alle Fragen können in dieser kurzen Zeit geklärt werden. Dafür haben alle genug Impulse mitgenommen, um in den kommenden Wochen und Monaten neue Ideen auszutüfteln. Etwas erschöpft aber randvoll mit Eindrücken ging es nach Hause – und für ein bisschen Ahle Worscht war natürlich auch noch Platz im Gepäck.
capella audio2score (früher: capella wave kit) gilt seit langem als eines der leistungsfähigsten Programme bei der Erkennung von Noten aus Audio-Aufnahmen. Das Programm analysiert eine Aufnahme, z.B. eine MP3-Datei. Die erkannten Töne werden untersucht, sortiert und dann sinnvoll in ein Arrangement gegossen, das dem ursprünglichen ähnlich ist. So lässt sich beispielsweise eine Solo-Aufnahme notieren oder eine Orchesterpartitur in einen Klavierauszug verwandeln. Für die Nachbearbeitung des Erkennungsergebnisses bietet capella audio2score pro umfangreiche Editierfunktionen und eine intuitive Ansicht des Klang- und Notenbildes. Dadurch unterscheidet sich die Software von ähnlichen Produkten anderer Anbieter. Trotzdem bleibt die Notenerkennung aus Audio eine äußerst anspruchsvolle Aufgabe (siehe dazu auch den Blog-Beitrag von 2014 unseres Autors Christian Schauß).
Intelligentes Zuhören
capella audio2score pro 4 bedient sich der neuesten Generation an neuronalen Netzen, mit denen die Künstliche Intelligenz (KI) derzeit Furore macht. Sicher habt ihr schon gehört von DeepL (Sprachübersetzung), ChatGPT (Dialogoptimierung), DALL*E (Bildgenerierung aus Text) oder AlphaZero/AlphaGo (Brettspiele). Mit diesen Systemen lassen sich Ergebnisse erzielen, die weit über das hinausgehen, was bisherige KI-Methoden konnten. Die Besonderheit von neuronalen Netzen: Sie werden nicht programmiert, sondern lernen anhand von Beispielen und können sich dadurch immer weiter verbessern.
Christian Schauß ist es nun gelungen, diese KI-Technologie auch auf die Audioerkennung zu übertragen. Als Lernbeispiele verwendete er Aufnahmen für Klavier solo, aber auch Stücke mit anderen Instrumenten und in größeren Besetzungen.
Ein Quantensprung in der Audioerkennnung!
Die Ergebnisse haben ihn und uns gleichermaßen begeistert. Man kann ohne Übertreibung von einem Quantensprung bei der Tonerkennung sprechen. Im Gegensatz zu den bisherigen Versionen erkennt Version 4 einzelne Klangfarben (Bläser, Streicher oder Klavier/Cembalo/Gitarre) und kann so die Instrumentengruppen einer Aufnahme voneinander trennen. Für reine Klaviermusik wurde ein spezialisiertes neuronales Netz trainiert, das Klaviertöne besonders gut erkennt.
Hier ein Beispiel, das den Fortschritt verdeutlicht. Es handelt sich um eine Aufnahme des dritten Satzes Alla Turca aus Mozarts Klaviersonate KV 331. Zunächst das Original:
Dann das Ergebnis der alten Erkennung (ohne Nachbearbeitung):
Und hier das Ergebnis der neuen Erkennung (ebenfalls ohne jegliche Nachbearbeitung):
Den Vergleich mit der bisherigen Erkennung könnt ihr übrigens selbst im Programm durchführen. Wenn ihr im Dialog beim Öffnen einer Audio-Datei auf den Mehr-Button klickt, könnt ihr in der Klappliste für die Erkennungsversion noch die alte Erkennung einstellen:
Wie funktionieren eigentlich neuronale Netze?
Neuronale Netze sind dem menschlichen Gehirn nachempfunden. Ein neuronales Netz besteht aus Neuronen, die über gewichtete Verbindungen miteinander vernetzt sind. Die Neuronen sind in Schichten organisiert, darunter eine Eingabe- und eine Ausgabeschicht. Bei der Notenerkennung ist dann vereinfacht gesprochen die Eingabe ein Ausschnitt aus der Audio-Aufnahme und die Ausgabe die entsprechende Notendarstellung.
Das Netz lernt die Aufgabe, indem es anhand von Beispielen die Verbindungsgewichte so anpasst, dass zu einer Eingabe die gewünschte Ausgabe geliefert wird. Die gelernten Informationen werden also nicht wie in einem Computer lokal gespeichert, sondern sind über die Gewichte des Netzes verteilt - das macht die Besonderheit neuronaler Netze aus. Nach erfolgreichem Lernen sind neuronale Netze dann in der Lage, auch zu nicht gelernten Eingaben sinnvolle Ausgaben zu liefern.
Was ist das Besondere an den modernen neuronalen Netzen?
Neuronale Netze existieren seit über 70 Jahren, sind also alles andere als neu. Doch seit einigen Jahren erleben sie einen erneuten Aufschwung. Grund dafür ist unter anderem eine deutlich schnellere Rechenleistung. Durch verbesserte Hardware besteht nun die Möglichkeit, viele Rechenoperationen parallel ausführen zu können. Die Anpassung der Netzgewichte beim Lernen erfolgt also nicht mehr nacheinander, sondern wie im menschlichen Gehirn gleichzeitig. Damit lassen sich deutlich größere und komplexere Netze trainieren (Deep Learning).
Die Besonderheit des Deep Learning besteht darin, dass neuronale Netze aus den Lernbeispielen selbständig sogenannte Merkmale extrahieren können. Bei der Bilderkennung (also der Identifizierung von Objekten in einem Bild) enthalten Merkmale beispielsweise Informationen über Textur und Form der zu erkennenden Objekte. Bei der Audioerkennung können das Muster von Obertönen (Klangfarben) sein. Merkmale verbessern den Lernprozess erheblich, sind aber häufig nur schwer in Worte "fassbar" und damit dem menschlichen Verstehen zugänglich zu machen. Das ist gleichzeitig Fluch und Segen dieser Technik: Ihre Funktionsweise ist schwierig zu verstehen, aber gerade dies macht sie so enorm leistungsfähig.
Kauf oder Abo
Wir bieten capella audio2score pro wie bisher zum Kauf und als Abo an. In beiden Versionen steht euch die neue Audioerkennung mit allen Editierfunktionen zur Verfügung. Hinzu kommt der Modus ganzheitliche Erkennung, in dem nur die charakteristischen Elemente eines Arrangements erfasst werden, also: Melodie, Basslinie und Harmonien. Dies empfiehlt sich für komplizierte Arrangements, falls sie nicht vollständig zerlegt werden können.
Wenn ihr weiter am Ball bleiben wollt, empfehle ich euch die Aboversion capella audio2score pro Abo. Damit profitiert ihr immer automatisch vom neuesten Stand der Audioerkennung.
Wie geht es weiter?
Selbstverständlich haben wir mit capella audio2score pro 4 nicht die neue Weltformel entdeckt. Es gibt noch viel Raum für Verbesserungen. Aber wir freuen uns, dass wir mit dem Programm einen neuen sinnvollen und nützlichen Anwendungsbereich für die KI mit erschaffen haben.
Verbesserungspotential sehen wir unter anderem bei der Erkennung einzelner Instrumente, insbesondere bei Gesang und Schlagzeug. Die Erkennung von Gesangstönen ist vor allem wegen der oft stark modulierenden Stimme (Stichwort "Schleudervibrato") besonders herausfordernd - das gilt teilweise auch für Instrumentalspiel mit ausgeprägtem Vibrato. Schlagzeugtöne werden aktuell nicht erkannt, sondern als Geräusche eher herausgefiltert. Natürlich haben wir noch viele weitere Ideen für kommende Versionen, die wir hier aber noch nicht verraten wollen.
Nun wünsche ich euch viel Vergnügen mit dem neuen capella audio2score pro und guten Erfolg bei der Umsetzung eures nächsten audio2score-Projekts - sei es beim Notieren eines Stücks, das ihr selbst am Klavier spielt, oder bei der Verwandlung einer bestehenden Aufnahme in Notenschrift. Wie gewohnt könnt ihr das Programm vorher mit unserer kostenlosen Testversion ausprobieren.
Mit der Veröffentlichung unserer neuen Community-Plattform geht für mich als langjährigem Mitglied der Geschäftsleitung ein lang gehegter Wunsch in Erfüllung. Die Idee, eine Community zu etablieren, steht bei uns im capella-Team schon seit vielen Jahren im Raum. Jetzt ist es endlich soweit.
Mit Martin Sturm, dem Moderator der capella academy, haben wir einen überaus kompetenten und unserem Unternehmen seit langem eng verbundenen Menschen für dieses Projekt gewinnen können. Darüber freuen wir uns sehr.
Unser neues Angebot starten wir mit einer ganzen Reihe von Formaten:
dem Forum, in dem Fragen, Antworten Tipps und Tricks für die Nutzung von Programmen aus dem Hause capella software ausgetauscht werden können
einem Blog, in dem Programmautoren regelmäßig über neue Entwicklungen berichten und Einblicke hinter die Kulissen geben
der Möglichkeit Gruppen zu gründen, um virtuelle Stammtische und lokale Austauschplattformen zu organisieren
mit Chat-Räumen, die einen schnellen und direkten Austausch ermöglichen
sowie einem Veranstaltungskalender, in dem Konzerte, Lehrgänge, Nutzer-Stammtische etc. eingestellt werden können
Von Zeit zu Zeit wird es auch kleine Umfragen geben, mit denen alle Mitglieder zu einem Meinungsbild beitragen können. Nach und nach werden wir auch weitere Funktionen über die Plattform anbieten und euch über unseren Newsletter und in capella community direkt informieren.
Forum, Blogs und Kalender können auch von Nicht-Mitgliedern gelesen werden. Für die aktive Nutzung ist eine (kostenlose) Registrierung erforderlich. Du bist herzlich eingeladen, egal welches Programm du nutzt oder ob du Kundin oder Kunde bei capella-software bist oder nicht.
Und jetzt bist du dran: Werde community-Mitglied, nutze unser Forum, veröffentliche deine Veranstaltung, lade andere capella-User zu capella community ein, chatte mit deinen Freundinnen und Freunden oder richte eine Gruppe für Gleichgesinnte ein.
Uns allen wünsche ich gutes Gelingen und viel Erfolg,