Ricordi il doppiaggio imbarazzante nei vecchi film di kung-fu? O la stridente sincronizzazione labiale dei primi film d’animazione? Quei giorni stanno svanendo rapidamente e, grazie all’avvento della tecnologia di sincronizzazione labiale basata sull’intelligenza artificiale, potrebbero essere per sempre alle nostre spalle. Da aprile 2023, il numero di soluzioni e il volume di Ricerche di parole chiave “sincronizzazione labiale AI”. è cresciuto notevolmente, arrivando dal nulla fino a diventare una delle tendenze critiche in IA generativa.
Questo campo all’avanguardia sta rivoluzionando il modo in cui creiamo e consumiamo contenuti video, con implicazioni per tutto, dalla produzione cinematografica e di animazione alle videoconferenze e ai giochi.
Per approfondire questa affascinante tecnologia, ho parlato con Aleksandr Rezanov, un ingegnere di computer vision e machine learning che in precedenza ha guidato lo sviluppo della sincronizzazione labiale presso Rask AI e attualmente lavora presso IA di Higgsfield a Londra. L’esperienza di Rezanov offre uno sguardo sugli intricati meccanismi, sulle sfide e sul potenziale di trasformazione della sincronizzazione labiale dell’intelligenza artificiale.
Decostruire la magia: come funziona la sincronizzazione labiale dell’intelligenza artificiale
“La maggior parte delle architetture di sincronizzazione labiale funzionano secondo un principio ispirato alla carta ‘Wav2Lip: video con sincronizzazione labiale accurata in natura‘”, mi ha detto Rezanov. Questi sistemi utilizzano una complessa interazione di reti neurali per analizzare l’input audio e generare corrispondenti movimenti delle labbra. “I dati di input includono un’immagine in cui vogliamo alterare la bocca, un’immagine di riferimento che mostra l’aspetto della persona e un input audio”, ha detto Rezanov.
Tre codificatori separati elaborano questi dati, creando rappresentazioni compresse che interagiscono per generare forme della bocca realistiche. “Il compito della sincronizzazione labiale è quello di ‘disegnare’ una bocca dove è mascherata (o adattare una bocca esistente), tenendo conto dell’aspetto della persona e di ciò che stava dicendo in quel momento”, ha detto Rezanov.
Questo processo comporta modifiche complesse, incluso l’utilizzo di più immagini di riferimento per catturare l’aspetto di una persona, l’utilizzo di diversi modelli facciali e diversi metodi di codifica audio.
“In sostanza, gli studi sulla sincronizzazione labiale esplorano quali blocchi in questo quadro possono essere sostituiti mentre i principi di base rimangono coerenti: tre codificatori, interazione interna e un decodificatore”, ha affermato Rezanov.
Sviluppare la tecnologia di sincronizzazione labiale basata sull’intelligenza artificiale è un’impresa impegnativa. Il team di Rezanov presso Rask AI ha dovuto affrontare numerose sfide, in particolare nel raggiungimento della qualità visiva e dell’accurata sincronizzazione audio-video.
“Per risolvere questo problema, abbiamo applicato diverse strategie”, ha detto Rezanov. “Ciò includeva la modifica dell’architettura della rete neurale, il perfezionamento e il miglioramento della procedura di addestramento e il miglioramento del set di dati”.
Rask è stato anche il pioniere del supporto della sincronizzazione labiale per i video con più parlanti, un compito complesso che richiede la diarizzazione dei parlanti (identificazione e segmentazione automatica di una registrazione audio in segmenti vocali distinti) e il rilevamento attivo dei parlanti.
Oltre l’intrattenimento: le applicazioni in espansione della sincronizzazione labiale dell’intelligenza artificiale
Le implicazioni della sincronizzazione labiale dell’intelligenza artificiale vanno ben oltre l’intrattenimento. “La tecnologia di sincronizzazione labiale ha una vasta gamma di applicazioni”, ha affermato Rezanov. “Utilizzando la sincronizzazione labiale di alta qualità, possiamo eliminare il divario audiovisivo durante la visione di contenuti tradotti, consentendo agli spettatori di rimanere immersi senza essere distratti dalle discrepanze tra parlato e video.”
Ciò ha implicazioni significative per l’accessibilità, rendendo i contenuti più coinvolgenti per gli spettatori che fanno affidamento sui sottotitoli o sul doppiaggio. Inoltre, la sincronizzazione labiale basata sull’intelligenza artificiale può semplificare la produzione di contenuti, riducendo la necessità di riprese multiple e abbassando i costi.
“Questa tecnologia potrebbe semplificare e ridurre i costi di produzione dei contenuti, facendo risparmiare agli studi di gioco risorse significative e probabilmente migliorando la qualità delle animazioni”, ha affermato Rezanov.
La ricerca della perfezione: il futuro della sincronizzazione labiale con intelligenza artificiale
Sebbene la sincronizzazione labiale tramite intelligenza artificiale abbia fatto passi da gigante, la ricerca di una sincronizzazione labiale perfetta e indistinguibile continua.
“La sfida più grande con la tecnologia di sincronizzazione labiale è che gli esseri umani, come specie, sono eccezionalmente abili nel riconoscere i volti”, ha affermato Rezanov. “L’evoluzione ci ha addestrato per questo compito nel corso di migliaia di anni, il che spiega le difficoltà nel generare qualsiasi cosa relativa ai volti”.
Delinea tre fasi nello sviluppo della sincronizzazione labiale: ottenere la sincronizzazione di base della bocca con l’audio, creare movimenti naturali e fluidi e, infine, catturare dettagli fini come pori, capelli e denti.
“Attualmente, il più grande ostacolo nella sincronizzazione labiale sta nel migliorare questo livello di dettaglio”, ha detto Rezanov. “Denti e barba rimangono particolarmente impegnativi.” Come proprietario di entrambi i denti e della barba, posso attestare la delusione (e talvolta i risultati in stile Dali che fanno ridere a crepapelle) che ho sperimentato durante il test di alcune soluzioni di sincronizzazione labiale AI
Nonostante queste sfide, Rezanov rimane ottimista.
“Secondo me, ci stiamo avvicinando costantemente al raggiungimento di una sincronizzazione labiale davvero indistinguibile”, ha detto Rezanov. “Ma chissà quali nuovi dettagli inizieremo a notare una volta arrivati lì?”
Dalla sincronizzazione labiale alla manipolazione del volto: la prossima frontiera
Il lavoro di Rezanov presso Higgsfield AI si basa sulla sua esperienza nella sincronizzazione labiale, concentrandosi su tecniche più ampie di manipolazione del viso.
“La generazione di video è un campo immenso ed è impossibile individuarne solo un aspetto”, ha detto Rezanov. “In azienda mi occupo principalmente di compiti legati alla manipolazione del viso, il che è strettamente in linea con la mia precedente esperienza.”
Il suo obiettivo attuale include l’ottimizzazione delle tecniche di scambio dei volti e la garanzia della coerenza dei personaggi nei contenuti generati. Questo lavoro spinge i confini della manipolazione video basata sull’intelligenza artificiale, aprendo nuove possibilità di espressione creativa e innovazione tecnologica.
Con l’evoluzione della tecnologia di sincronizzazione labiale dell’intelligenza artificiale, possiamo aspettarci esperienze ancora più realistiche e coinvolgenti nei film, nell’animazione, nei giochi e altro ancora. La valle misteriosa si sta restringendo e un futuro di esseri umani digitali iperrealistici è a portata di mano.