Con base sulla tecnologia di rilevamento di tonalità multiple, si è sviluppata un’intelligenza artificiale per la raccolta automatica della musica in modo da capire e fare musica in modo più semplice e veloce.
La funzione e lo sviluppo della raccolta automatica delle partiture consentono a chiunque di aprire un plug-in e di avere il senso assoluto del suono e della capacità di interpretazione di queste, oltre a poterne compilare immediatamente ulteriori.
Esistono già sul mercato numerose applicazioni dell’intelligenza artificiale in campo musicale: ad esempio, le persone utilizzano il software di riconoscimento musicale Soundhound per cercare il titolo o il brano intero della composizione che stanno ascoltando, oppure odono brani consigliati dalle piattaforme di streaming online, o trovano rapidamente ciò che desiderano attraverso vari software dedicati alle canzoni. Lo sviluppo in quest’area è prossimo alla maturità, ma è mirato principalmente al comportamento di “ascolto”.
Se si desidera utilizzare l’intelligenza artificiale per comprendere meglio il significato più profondo della musica, come il pensiero creativo del compositore, la tecnica interpretativa dell’esecutore e persino il punto di vista del critico musicale, allora un software dotato di un eccellente udito musicale può aiutare, in quanto raccoglie automaticamente gli spartiti e trasforma la musica ascoltata in partiture complete e facili da eseguire: e questo sarà un passo fondamentale.
Una canzone anche semplice contiene in realtà molte informazioni complesse, come velocità, ritmo, intonazione, accordi, musica strumentale e timbro vocale, ecc. Pertanto, la raccolta automatica di spartiti da parte dell’intelligenza artificiale di musica su larga scala – quali le sinfonie – deve gestire una grande quantità di informazioni sovrapposte e la difficoltà è ancora molto elevata. Per convertire la musica che si ascolta in una partitura visibile, si devono ancora scoprire le caratteristiche più stabili e la chiave per determinare la melodia e l’altezza.
L’altezza è la caratteristica fondamentale di tutti gli elementi musicali e la maggior parte delle informazioni sugli spartiti è legate all’altezza. Essa è la qualità che permette di distinguere se un suono è acuto o grave e dipende dalla frequenza dell’onda sonora che lo ha generato. In particolare: più la frequenza di un’onda sonora è elevata e più il suono ci sembrerà acuto, mentre più è bassa la frequenza e più il suono ci apparirà grave.
Parlando della natura dei segnali musicali, si ritiene che l’intonazione sia una delle informazioni più basilari e che il suo rilevamento la tecnologia di base per elaborare i predetti segnali musicali.
Prendiamo un’esperienza quotidiana che appartiene ad ognuno di noi: quando un amico chiama al telefono, a volte sentiamo che la sua voce sembra diversa dal solito. Questo accade pure perché elementi esterni – come fili conduttori e dispositivi elettrici – modificano il timbro delle voci delle persone durante la trasmissione della propria comunicazione vocale, confondendo il nostro udito. Al contrario l’intonazione della voce dell’interlocutore al telefono, ossia il tono, sia che si alzi o si abbassi, non viene influenzato facilmente.
Anche se non riconosciamo la voce dell’altra persona a causa del rumore, spesso però comunque in grado di comprendere il contenuto del suo discorso. Poiché l’altezza ha caratteristiche così basilari, il modo di identificarla può essere considerato una tecnologia di base per analizzare le informazioni sul suono.
A giudicare dal pentagramma comunemente utilizzato per scrivere la musica, ogni altezza è collegata per formare una melodia. Se la musica viene suonata secondo la partitura musicale standard, l’aumento o la diminuzione dell’altezza non verrà influenzato o modificato dall’esecutore. Inoltre, le informazioni sull’altezza non includono solo l’altezza assoluta, ma anche la relazione relativa tra i suoni e persino la possibilità di varie interpretazioni quando l’altezza viene modificata.
Proprio come qualcuno che canta una determinata melodia, pur se nessuna nota è in tono, possiamo comunque sentire che è “quella” melodia. Questo succede perché riconosciamo la forma del contorno della melodia, che è l’ascesa e la caduta della stessa. Finché gli alti e bassi della melodia sono simili alla canzone originale, possiamo ascoltarla proprio come il software di riconoscimento musicale Soundhound.
Oltre ad essere espresse nella melodia, le informazioni sull’altezza sono anche basiche nelle strutture di accompagnamento, armonia e contrappunto, ovvero nella tecnologia di riconoscimento degli accordi e di stima multi-altezza (MPE: Multi-Pitch Estimation).
Negli ultimi anni, l’attenzione allo sviluppo della tecnologia di rilevamento multi-pitch si è concentrata principalmente sulla musica cólta occidentale, perché il database di questo tipo di musica è relativamente completo e i modelli sonori di ciascuno strumento sono più facili da standardizzare, il che è molto conveniente quando si analizzano le relative partiture.
Però poiché la maggior parte della musica cólta occidentale ha spartiti completi, spesso è quella che meno necessita di questa tecnologia per assistere la ricerca. Al contrario, un gran numero di canzoni popolari – anch’esse occidentali (per non dire poi di altre parti del mondo, su cui tra breve ci soffermeremo) – prive di registrazioni di notazione musicale, richiedono molta fatica per trascrivere la notazione musicale in modo da facilitare l’interpretazione e l’analisi. È qui che la tecnologia di rilevamento di toni multipli torna utile e può fornire maggiori informazioni oltre la notazione musicale.
Prendiamo ad esempio il popolo dei Bunun, storicamente chiamati anche Vonum; essi sono una tribù di aborigeni di Taiwan conosciuti soprattutto per la loro sofisticata musica polivocale.
Il Pasibutbut, è il loro canto di preghiera per la raccolta del miglio, noto anche come Armonia delle otto parti. Si dice che il motivo per cui vengono chiamate le Otto Parti sia dovuto al metodo del canto armonico, cioè una persona può cantare due note contemporaneamente. Oltre a cantare la tonalità fondamentale, migliora anche la energia di un grado armonico di ordine superiore.
Tuttavia, la maggior parte delle partiture compilate dai musicologi oggi sono ancora registrate in quattro parti, perché l’arrangiamento del canto ha in realtà solo quattro tipi di registri vocali: soprano, tenore, contralto e basso. Per quanto riguarda le voci extra con il metodo del canto armonico, alcune persone possono sentirle, mentre altre non sono in grado di percepirle; e le diverse versioni di registrazione variano notevolmente, rendendo difficile individuare esattamente quali otto voci siano e quali siano le loro rispettive altezze.
Attraverso i dati del diagramma tempo-frequenza (spettrogramma) del segnale, si può vedere chiaramente le caratteristiche del metodo del canto armonico: ogni parte genera più energia con moltiplicatori di pari frequenza. Dopo il rilevamento di toni multipli, gli armonici di frequenze di più ottave vengono rimossi. Oltre al tono fondamentale, è anche facile vedere che c’è energia nella posizione del primo armonico (la frequenza della seconda ottava del tono fondamentale), mostrando un nuovo tono. Con la composizione alta, i risultati presentati dall’algoritmo confermano l’esistenza del canto armonico.
Attraverso la tecnologia di calcolo della frequenza istantanea, ovvero il rilevamento di toni multipli, è possibile calcolare accuratamente la traiettoria del tono di ciascuna parte, il che aiuterà nella raccolta di spartiti di musica popolare sia non occidentale che occidentale (tipo la folkloristica, tenuta in Occidente da parte, e ritenuta musica di Serie B).
La tecnologia di rilevamento dell’altezza multipla attualmente oggetto di ricerca è progettata per essere applicabile a vari segnali musicali e può caratterizzare efficacemente ogni struttura sonora e convertire istantaneamente il suono in una partitura musicale.
La tecnologia di rilevamento multi-pitch non può essere applicata solo alla raccolta musicale e ai problemi di elaborazione in campi come l’etnomusicologia predetta, ma le sue capacità di elaborazione e visualizzazione in tempo reale hanno un grande potenziale anche nell’istruzione, nell’intrattenimento e in altri campi applicativi, convertendo performance complesse in tempo reale pure per la rappresentazione visiva.
Utilizzando la tecnologia di rilevamento dell’altezza multipla, ogni volta che il pianoforte suona la nota successiva, il computer localizzerà automaticamente l’altezza e la convertirà nuovamente in tasti del predetto pianoforte su uno schermo. Qualunque tasto del pianoforte venga premuto, la trascrizione dello spartito viene completata dopo l’esecuzione. Stabilire una connessione visiva e uditiva durante l’ascolto della musica per migliorare la comprensione di elementi musicali come l’altezza e l’accordo è la direzione di un’esecuzione musicale arricchita.
Lo scopo di questi studi in via di avanzamento sin dal 2017 è perfezionare il sistema di traduzione istantanea nel corso delle esibizioni dal vivo direttamente in spartiti musicali, utilizzando la tecnologia adatta. In modo che tale linguaggio possa raccontare la “storia” di quella determinata musica e, attraverso immagini di animazione multimediale, tutti possano ascoltare e vedere l’esecuzione musicale così come si manifesta nelle note.
L’applicazione della tecnologia di rilevamento di toni multipli per l’apprendimento non si limita al rilevamento e alla visualizzazione di elementi musicali. L’ambito di ricerca dell’intelligenza artificiale musicale comprende non solo la maniera di come i geni musicali ascoltano e “sentono” la propria musica, ma anche della maniera in cui essi interpretino la musica.
Per raggiungere questo obiettivo, un’accurata tecnologia di rilevamento multi-pitch spesso richiede algoritmi di rilevamento di frequenza ed energia più accurati per descrivere accuratamente quanto intensamente stia suonando il musicista, come utilizzare il vibrato, come controllare la lunghezza del suono, ecc.
Inoltre, in futuro potremmo essere in grado di stabilire uno standard di prova: ad esempio quando il musicista registra la sua performance e la inserisce nell’intelligenza artificiale musicale, può confrontarla con una performance standard per vedere se si è attenuto alle regole di composizione, oppure è sulla strada di un percorso innovativo. Se noi pensiamo che nella Sonata N. 32, opus 111 di Ludwig van Beethoven s’intravvede il jazz, tale riflessione la possiamo esprimere solo perché conosciamo il jazz, però l’intelligenza artificiale può dirci se quell’autore magari sta percorrendo un sentiero mai tracciato che però può avere sviluppi nel lungo periodo e non restare isolato. Oppure, attraverso l’esecuzione dimostrativa dell’intelligenza artificiale musicale, i principianti possono ascoltare continuamente vari metodi di interpretazione e quindi provare a capire le loro espressioni esecutive preferite. Queste sono tutte intelligenze artificiali musicali che possono essere estese e sviluppate in futuro dalla tecnologia di rilevamento di toni multipli, una volta completata.
Se l’intelligenza artificiale riesce ad identificare l’interpretazione dall’esecuzione, si avrebbe l’opportunità di apprendere le abilità esecutive dello strumento da quelle stesse superbe esibizioni dei maestri di musica che ammiriamo tutti i giorni, dal vivo, in televisione, alla radio o su piattaforma magnetica analogica o digitale.
La tecnologia di rilevamento accurato dei toni multipli può essere utilizzata non solo per analizzare i termini espressivi nella musica cólta, ma un’altra applicazione interessante è quella che verte sugli studi delle complesse tecniche di esecuzione degli assoli di chitarra nella musica rock.
Gli assoli di chitarra belli e appassionati spesso combinano una varietà di tecniche esecutive diverse, come il bending (piegatura) delle corde. Il bending o effetto di glissando mira ad alterare una nota musicale di partenza fino a portarla a una più alta nota di arrivo; l’intervallo tra le due note spazia dal semitono ai due toni, a seconda dei limiti fisici dello strumento utilizzato. Oltre al bending, ci sono lo slide, il mute, il martellamento, l’aggancio, ecc.
Questa è la parte più problematica per i nuovi chitarristi quando imparano a catturare la musica. La tecnologia di rilevamento dell’altezza multipla aiuta a identificare le tecniche per suonare la chitarra; essa converte queste tecniche in simboli tecnici leggibili e le registra sullo spartito, rendendoci più facile comprendere il metodo di esecuzione e quindi imitarlo. Gli obiettivi di apprendimento musicale desiderati sono un sistema che sicuramente sarà essere sviluppato in futuro.
Per cui il pubblico si chiede: «L’intelligenza artificiale musicale sostituirà i musicisti?» Quando uscì l’IA AlphaGo – di cui ho parlato in miei precedenti lavori – essa riscrisse un nuovo aspetto del famoso gioco cinese Go – ormai diffuso in tutto il mondo negli anni recenti – tale IA sconfisse uno dopo l’altro i migliori giocatori di Go del mondo. Alcune persone erano spaventate, altre erano eccitate. Tutto a causa dei cambiamenti apportati dalla tecnologia dell’intelligenza artificiale.
Quando AlphaGo ci fa diventare il Fujiwara no Sai di tutti (un giocatore di Go del periodo Heian; epoca della storia giapponese compresa tra il 794 e il 1185), possiamo essere come Hikaru Shindo – il protagonista principale del manga Hikaru no Go – un bambino di prima media all’inizio disinteressato al Go e poi Insei (apprendista) ed infine professionista del Primo Dan. Ossia saremo in grado imparare il Go anche se non lo abbiamo mai praticato dall’infanzia.
Sulla base di un ragionamento simile, possiamo dire che il progresso della tecnologia dell’intelligenza artificiale musicale non è destinato a sostituire il lavoro dei musicisti. Al contrario, possiamo vedere che nel prossimo futuro queste tecnologie verranno utilizzate per migliorare l’efficienza dell’apprendimento musicale da parte degli esseri umani ed espandere – sotto profilo economico – il mercato dell’apprendimento e del consumo di musica.
Proprio come la Prima Rivoluzione Industriale che ha modernizzato e prodotto in serie i clavicordi dal XIV secolo al XVII, trasformandolo nel “discendente” il quale ha dato vita a opere immortali per pianoforte solo di compositori come Chopin e Schumann della Scuola Romantica – lo sviluppo maturo dell’intelligenza artificiale nella musica contemporanea lancerà un’altra rivoluzione, che non solo renderà l’apprendimento della musica più facile e divertente, ma fornirà ai musicisti un pensiero senza precedenti sulla creazione musicale.
La ricerca approfondita sulla tecnologia di rilevamento di toni multipli ha gradualmente sviluppato un’intelligenza artificiale musicale in grado di tradurre correttamente gli spartiti musicali. Da un lato, spera di fornire ai creatori di musica professionisti un ambiente ideativo migliore senza spendere troppi sforzi nella registrazione e nell’analisi spartiti musicali; per cui i creatori possono dedicare più tempo all’elaborazioni di nuovi stili musicali, così come – senza saperlo – Beethoven, dicono i critici musicali, è stato un antesignano del jazz, pure se io penso lo sia stato del ragtime.
D’altra parte spero che tutti coloro che vogliano imparare la musica possano essere dotati anche di un valido orecchio musicale, non dico come quello di Mozart, ma almeno poco al di sopra della media degli abitanti del pianeta.
Di conseguenza tutti avranno un insegnante di musica virtuale, che può comprendere la composizione e la struttura d’essa in modo più rilassato e semplice, ridurre i costi di apprendimento e accelerare la conoscenza della musica, affinché un gran numero di persone di ogni età sia interessato a rendere la musica parte della propria vita.
In pratica si tratta di rompere il muro tra chi conosce “accademicamente” la musica e chi la canticchia: questo vuol dire apprendere e usare la tecnologia onde creare una migliore interfaccia di apprendimento musicale per rendere l’apprezzamento della musica e l’esecuzione più accessibili. Questo è l’obiettivo del rapporto fra intelligenza artificiale e grande balzo in avanti “delle note”.

a cura di Giancarlo Elia Valori