NVIDIA ha svelato Fugatto, un modello di AI generativa in grado di creare e modificare contenuti audio. Il modello mira ad assistere i produttori musicali, i creatori di film e gli sviluppatori di giochi consentendo loro di generare nuovi suoni attraverso suggerimenti di testo. Fugatto combina varie capacità di generazione audio, utilizzando algoritmi avanzati per migliorare i processi creativi nel settore audio.
NVIDIA presenta Fugatto, un’intelligenza artificiale generativa per la creazione audio
Fugatoabbreviazione di Foundational Generative Audio Transformer Opus 1, è stato introdotto da NVIDIA, il principale fornitore mondiale di chip e software per sistemi di intelligenza artificiale. La tecnologia può generare e alterare il suono da file audio esistenti, rendendolo distinto dai modelli precedenti. Ad esempio, può trasformare la melodia di un pianoforte in una voce umana o modificare l’accento e il tono emotivo di una registrazione parlata. Questa flessibilità consente ai creatori di esplorare una gamma di applicazioni innovative in diversi campi.
Il team dietro Fugatto è composto da oltre una dozzina di ricercatori, tra cui Rafael Valle, responsabile della ricerca audio applicata di NVIDIA. Valle ha sottolineato l’obiettivo del progetto: “Volevamo creare un modello che comprendesse e generasse il suono come fanno gli esseri umani”. La chiave del design di Fugatto è la sua capacità di integrare molteplici attività legate alla generazione e trasformazione dell’audio, mettendo in mostra le proprietà emergenti che derivano dai suoi estesi dati di addestramento.
Gli utenti possono istruire Fugatto con istruzioni in formato libero per creare paesaggi sonori, frammenti musicali o persino effetti sonori unici. Ad esempio, un produttore potrebbe prototipare rapidamente stili o strumenti diversi per una traccia. In particolare, Fugatto presenta tecniche come ComposableART, che consentono agli utenti di amalgamare diversi comandi. I test hanno rivelato risultati sorprendenti, come suggerito da Rohan Badlani, un ricercatore di intelligenza artificiale coinvolto nel modello, che ha descritto l’esperienza come artisticamente gratificante nonostante il suo background tecnico.
Durante la formazione, Fugatto ha utilizzato 2,5 miliardi di parametri ed è stato sviluppato sui potenti sistemi DGX di NVIDIA dotati di 32 GPU H100 Tensor Core. L’addestramento del modello si è basato su un set di dati diversificato e misto comprendente milioni di campioni audio, migliorandone la funzionalità multiaccento e multilingue. Anche lo sviluppo di questo ambizioso progetto ha richiesto più di un anno, con il team che ha superato diverse sfide nella generazione di dati e nella formazione dei modelli.
Fugatto offre diverse potenziali applicazioni, anche per agenzie pubblicitarie e piattaforme di apprendimento linguistico. È stato suggerito che le campagne di marketing potrebbero trarre vantaggio dalla sua capacità di personalizzare le voci fuori campo con accenti o stati d’animo diversi. Nel campo dell’istruzione, gli studenti potrebbero usufruire di corsi personalizzati con voci familiari. Gli sviluppatori di giochi potrebbero adattare dinamicamente l’audio del gioco, integrando elementi interattivi che rispondono alle azioni dell’utente.
Sebbene le capacità di Fugatto siano impressionanti, NVIDIA non ha annunciato piani immediati per rilasciare questa tecnologia al pubblico. L’azienda esprime preoccupazione per il potenziale uso improprio dell’intelligenza artificiale generativa, con Bryan Catanzaro, vicepresidente di NVIDIA per la ricerca applicata sul deep learning, che sottolinea l’importanza della cautela dati i rischi associati a tale tecnologia. OpenAI e altre aziende del settore affrontano sfide simili per quanto riguarda l’implementazione responsabile dei loro modelli, in particolare per quanto riguarda i diritti di proprietà intellettuale e la disinformazione.
Credito immagine in primo piano: Nvidia