Hai mai desiderato che le tue foto potessero parlare o cantare? Ti presentiamo EMO, abbreviazione di Emote Portrait Alive. Sviluppato dai ricercatori dell’Institute for Intelligent Computing di Alibaba, EMO è un sistema di intelligenza artificiale progettato per fare proprio questo.
EMO adotta un approccio unico all’animazione, aggirando i complessi modelli 3D convertendo direttamente l’audio in fotogrammi video. Ciò significa che i tuoi video animati mantengono i movimenti e le espressioni naturali del discorso o del canto, il tutto da una singola foto e clip audio.

Alibaba AI: cos’è Emote Portrait Alive (EMO)?
EMO, o Emote Portrait Alive, è un sistema di intelligenza artificiale sviluppato dai ricercatori dell’Institute for Intelligent Computing di Alibaba. La sua funzione principale è quella di animare foto di ritratti staticicreando video in cui il soggetto sembra parlare o cantare in modo realistico.
Ciò che distingue EMO è il suo approccio alla generazione di queste animazioni. Invece di affidarsi ai metodi tradizionali che spesso faticano a catturare le sfumature dell’espressione umana, EMO converte direttamente le forme d’onda audio in fotogrammi video. Ciò significa che non sono necessari modelli 3D intermedi o punti di riferimento facciali per generare animazioni. Si concentra invece sulla cattura dei movimenti facciali sottili e degli stili facciali individuali associati al linguaggio naturale.
Appena entrato
questo è l’audio2video più sorprendente che abbia mai visto.
Si chiama EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu— Stelfie il viaggiatore del tempo (@StelfieTT) 28 febbraio 2024
La tecnologia alla base dell’EMO si basa su un modello di diffusione, noto per la sua capacità di generare immagini sintetiche realistiche. Per addestrare il sistema, i ricercatori hanno utilizzato un ampio set di dati di video di teste parlanti provenienti da varie fonti, inclusi discorsi, film, programmi TV e spettacoli musicali. Questa formazione approfondita consente a EMO di produrre video di alta qualità preservando l’identità del soggetto e trasmettendo espressività.
Oltre a generare video conversazionali, EMO può anche animare ritratti cantati. Sincronizzando le forme della bocca e le espressioni facciali con la voce puoi creare video cantati in diversi stili e durate.

Sebbene lo sviluppo di EMO offra interessanti possibilità per la creazione di contenuti video personalizzati, solleva anche preoccupazioni etiche. C’è il rischio di uso improprio, come ad esempio imitazione o la diffusione di disinformazione. Pertanto, è essenziale affrontare l’implementazione di tale tecnologia con cautela e garantire che siano messe in atto tutele adeguate per affrontare queste preoccupazioni etiche.
Sincronizzazione labiale Pika fa parlare anche i video generati dall’intelligenza artificiale
Come funziona l’EMO?
Il sistema EMO opera in due fasi principali: codifica dei frame e processo di diffusione.
- Codifica dei frame: estrae caratteristiche da immagini di riferimento e fotogrammi in movimento per stabilire le basi per l’animazione.
- Processo di diffusione: utilizza un codificatore audio preaddestrato per elaborare l’input audio. Integra maschere della regione facciale con rumore multi-frame per la generazione di animazioni. Backbone Network elimina il rumore delle animazioni, aiutato dai meccanismi di riferimento-attenzione e audio-attenzione. I moduli temporali regolano la velocità del movimento.
Cosa puoi fare con EMO?
EMO offre uno strumento versatile per creare video animati realistici, ampliando le possibilità di creazione di contenuti personalizzati ed espressivi, come:
- Cantando: genera video avatar vocali con espressioni facciali espressive sincronizzate con gli input audio del canto.

- Linguaggio e stile: Supporta diverse lingue e stili di ritratto, acquisendo variazioni tonali per animazioni avatar dinamiche.
- Ritmo rapido: Garantisce la sincronizzazione delle animazioni dei personaggi con ritmi frenetici.
- Parlando: anima i ritratti in risposta agli input audio parlati in varie lingue e stili.
- Performance tra attori: Ritrae personaggi di film o altri media in contesti multilingue e multiculturali.
In sintesi, EMO, noto anche come Emote Portrait Alive, rappresenta un progresso significativo nella tecnologia di animazione. Può trasformare le immagini fisse in video vivaci in cui i soggetti sembrano parlare o cantare in modo realistico. EMO raggiunge questo obiettivo convertendo direttamente l’audio in fotogrammi video, catturando accuratamente le espressioni e i movimenti del viso. Sebbene gli EMO offrano interessanti possibilità per la creazione di contenuti visivi dinamici, è necessario affrontare le preoccupazioni etiche relative al loro potenziale uso improprio. Tuttavia, EMO rappresenta uno strumento prezioso per dare vita alle immagini fisse e può potenzialmente trasformare il modo in cui interagiamo con i media visivi in futuro.
Per informazioni più dettagliate, Qui è il suo documento di ricerca.
Credito immagine in primo piano: EMO: ricerca Emote Portrait Alive