Google ha creato MusicLM, modello di Intelligenza Artificiale capace di creare musica partendo da un testo

Google ha messo a punto il modello di IA chiamato MusicLM capace di generare musica partendo da una descrizione testuale, di qualsiasi natura e lunghezza: le potenzialità sono infinite.

Scritto da

Simone Ziggiotto

30 Gennaio 2023

Un team di sviluppo di Google ha messo a punto un modello di intelligenza artificiale (IA) capace di generare della musica partendo come base da un testo. Questo modello si chiama MusicLM, la cui descrizione ufficiale recita: "genera musica ad alta fedeltà da descrizioni testuali come ‘una rilassante melodia di violino accompagnata da un riff di chitarra distorto’".

Come riportato da Techcrunch, MusicLM non è il primo modello di IA capace di generare una canzone. Esistono anche Riffusion, capace di comporre musica visualizzandola, AudioML di Google (google-research.github.io/seanet/audiolm/examples/) e Jukebox di OpenAI (openai.com/blog/jukebox/). Quest’ultima, sviluppata dalla stessa organizzazione che sta dietro al tanto discusso servizio ChatGPT, consiste in "una rete neurale che genera musica, incluso del canto rudimentale, come audio grezzo in una varietà di generi e stili di artisti". Nei rispettivi siti citati al fianco del nome è possibile ascoltare alcuni esempi di come funzionano i rispettivi sistemi.

Tornando a MusicLM, Google spiega che questo modello di IA "definisce il processo di generazione di musica condizionale come un’attività di modellazione gerarchica da sequenza a sequenza e genera musica a 24kHz che rimane coerente per diversi minuti". Dai primi esperimenti di utilizzo del sistema, il team che lo ha sviluppato ha concluso che MusicLM "supera i sistemi precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale" aggiungendo che anche "può trasformare melodie fischiate e canticchiate secondo lo stile descritto in una didascalia testuale".

E’ possibile ascoltare numerosi esempi di musica generata automaticamente dal modello di intelligenza artificiale MusicLM partendo da un testo nella pagina ufficiale del progetto: google-research.github.io/seanet/musiclm/examples/.

Per esempio, nella pagina del progetto si possono ascoltare brani di lunga durata (5 minuti ciascuno) ma anche di breve durata (da 30 secondi ciascuno) generati dall’IA partendo dalle seguenti descrizioni:
• "La colonna sonora principale di un gioco arcade. È veloce e ottimista, con un orecchiabile riff di chitarra elettrica. La musica è ripetitiva e facile da ricordare, ma con suoni inaspettati, come colpi di piatti o rulli di tamburi."
• "Una fusione di reggaeton e musica dance elettronica, con un suono spaziale e ultraterreno. Induce l’esperienza di perdersi nello spazio e la musica sarebbe progettata per evocare un senso di meraviglia e soggezione, pur essendo ballabile."
• "Canzone reggae dal ritmo lento, con basso e batteria. Chitarra elettrica sostenuta. Bonghi acuti con toni squillanti. Le voci sono rilassate con un’atmosfera rilassata, molto espressive."
• "Pezzo funky con un ritmo forte e ballabile e una linea di basso prominente. Una melodia orecchiabile da una tastiera aggiunge uno strato di ricchezza e complessità alla canzone.
• "Canzone meditativa, calmante e rilassante, con flauti e chitarre. La musica è lenta, con l’obiettivo di creare un senso di pace e tranquillità."
• "un brano musicale r&b/hip-hop. C’è un rap vocale maschile e una voce femminile che canta in modo simile al rap. Il ritmo è composto da un pianoforte che suona gli accordi della melodia con un accompagnamento di batteria elettronica. L’atmosfera del pezzo è giocosa ed energica. Questo pezzo potrebbe essere utilizzato nella colonna sonora di un film drammatico/programma televisivo ambientato al liceo. Potrebbe anche essere riprodotto a feste di compleanno o feste in spiaggia."
• "Colonna sonora epica con strumenti orchestrali. Il pezzo crea tensione, crea un senso di urgenza. Un coro a cappella cantato all’unisono, crea un senso di potenza e forza."

Molto interessante la capacità di MusicLM di esprimere in musica un quadro partendo dalla descrizione dell’opera. Nel portale del progetto, come esempio, si possono ascoltare 30 secondo di musica generata da una descrizione dell’opera "L’urlo" di Edvard Munch.

MusicLM è poi in grado di generare musica partendo da descrizioni brevi e di qualsiasi genere come "palestra", "musica lirica", "evasione dal carcere", "spiaggia nei caraibi", "pianista professionista veloce e pazzo", "pianista principiante", "death metal a fisarmonica", "musica motivazionale per lo sport", "assolo di chitarra", "tamburi tribali e flauto"… e così via: le possibilità di creare musica con MusicLM sono pressoché infinite.

Con lo scopo di attirare altri sviluppatori nello sviluppo di MusicLM, Google ha rilasciato pubblicamente MusicCaps, un set di dati composto da 5,5k coppie di musica-testo, con descrizioni fornite da esperti umani.