martedì, Gen 31

MusicLM: ecco l’AI musicale di Google che da una descrizione genera audio a 24kHz pa

da Hardware Upgrade :

Dopo ChatGPT
per il testo e Midjourney
per le immagini, non poteva mancare anche l’AI generativa “musicale”.
Questa volta si tratta di un progetto sviluppato da Google: MusicLM
in grado di creare armonie e melodie a 24KHz partendo da una
descrizione testuale o anche da un “fraseggio” canticchiato,
esplorando anche stili differenti.

MusicLM si basa su un modello di intelligenza artificiale addestrato con
un ampio set di dati di brani musicali liberi, unitamente ai sottotitoli
di MusicCaps, un set di dati composto da oltre 5500 coppie di
musica e testo. MuiscCaps costituito da descrizioni di testo realizzate
dall’uomo tratte da clip audio presenti in AudioSet di Goole, una raccolta
di oltre due milioni di clip audio di 10 secondo estratte dai video di
YouTube. Google aveva in precedenza lavorato ad un altro modello AI
chiamato AudioLM, che funge da ossatura per MusicLM assieme ad
altre tecnologie quali SoundStream e MuLan.

Partendo da questo set da cui attingere e rielaborare, il funzionamento
di MusicLM prevede due step. Anzitutto a partire da una sequenza di “token
audio” compie associazioni con “token semantici” nella fase di
addestramento. Nella seconda fase riceve indicazioni testuali dall’utente
(o una clip audio) e genera token acustici che costituiscono l’output del
brano risultante.

La societ di Mountain View afferma che MusicLM capace di produrre un
risultato migliore rispetto ai predecessori sia per quanto riguarda la
qualit audio, sia per l’aderenza alle descrizioni testuali fornite. Google
mette a disposizione vari esempi di quanto ottenibile con MusicLM,
con spezzoni audio realizzati a partire da descrizioni dettagliate. In
alcuni brani vi sono anche parti pseudo-vocali, che tuttavia non hanno
alcun senso compiuto.

Tra gli esempi vi anche quello della “long generation”, cio la
produzione di un brano pi articolato e di maggior durata a partire da
un semplice suggerimento, la “story mode” che da una serie di
suggerimenti di testo trae una serie di brani musicali in evoluzione, la
modalit “testo e melodia condizionate” che, come accennavamo sopra,
genera una melodia a partire da un motivetto canticchiato o fischiettato,
modificandolo in accordo con uno stile indicato.

MusicLM capace di generare suoni e melodie di strumenti musicali
specifici, cos come generi musicali differenti, imitare diversi
livelli di capacit di esecuzione ma anche l’acustica di diversi
luoghi o le atomosfere proprie di un determinato periodo storico.

Il codice di MusicLM non pubblico, e i ricercatori di Google non
prevedono di rilasciarlo almeno allo stato attuale delle cose. A tal
proposito, nel documento
accademico di presentazione, vengono indicati alcuni aspetti e il
potenziale impatto di una tecnologia di questo tipo, citando ad esempio
eventuali problemi di copyright, l’esistenza di pregiudizi per via di
culture sottorappresentate nei set di dati utilizzati durante la fase di
apprendimento (aspetto comune a tutte le AI) o possibili problemi di
appropriazione culturale.

I ricercatori ritengono che sia necessario ulteriore lavoro di sviluppo e
affinamento, per affrontare e risolvere i problemi ravvisati. Oltre a ci
lo sviluppo potrebbe concentrarsi anche su altre funzioni, come ad esempio
la generazione di testi o la composizione strutturata di brani con parti
“canoniche” come introduzione, strofa e ritornello. E, ovviamente, anche
la capacit di generare audio ad una frequenza di campionamento superiore,
e quindi con maggior qualit.

Insomma, l’obiettivo ultimo sembra essere quello della composizione e
creazione musicale alla portata di chiunque, a partire da una
semplice descrizione testuale. Chiss
cosa avr da dire Nick Cave su tutto ci, considerando l’opinione
non esattamente lunsighiera che gi nutre per ChatGPT…

Source link