Bytedance, la società madre di Tiktok, ha recentemente lanciato Omnihuman-1, un sofisticato framework di generazione di video AI in grado di creare video di alta qualità da una singola immagine abbinata a una clip audio. Questo modello combina capacità video, audio e quasi perfette di sincronizzazione delle labbra.
Bytedance lancia Omnihuman-1: un nuovo modello di generazione di video AI
Omnihuman-1 è notevole per produrre non solo video fotorealistici ma anche cartoni animati antropomorfi, oggetti animati e pose complesse. Accanto a questo, Bytedance ha introdotto un altro modello di intelligenza artificiale chiamato Goku, che ottiene una qualità simile a un testo a video con un’architettura compatta di 8 miliardi di parametri, mirando in particolare al mercato della pubblicità.
Questi sviluppi posizionano la bente tra i migliori giocatori nel campo AI insieme a giganti della tecnologia cinese come Alibaba e Tencent. I suoi progressi interrompono in modo significativo il panorama per i contenuti generati dall’IA rispetto ad altre aziende come Kling AI, data la vasta biblioteca video di Bytedance, che è potenzialmente la più grande dopo Facebook.
I video demo per Omnihuman-1 mostrano risultati impressionanti da vari tipi di input, con un alto livello di dettaglio e di piccoli minimi. A differenza delle tradizionali tecnologie DeepFake che spesso si concentrano esclusivamente sulle animazioni facciali, Omnihuman-1 comprende animazioni a tutto il corpo, imitando accuratamente gesti ed espressioni. Inoltre, il modello AI si adatta bene alle diverse qualità dell’immagine, creando movimento regolare indipendentemente dall’input originale.
Specifiche tecniche di Omnihuman-1
Omnihuman-1 sfrutta un modello di trasformatore di diffusione per generare movimento prevedendo i modelli di movimento frame per frame, con conseguenti transizioni realistiche e dinamiche del corpo. Allenato su un vasto set di dati di 18.700 ore di filmati video umani, il modello comprende una vasta gamma di movimenti ed espressioni. In particolare, la sua strategia di addestramento “Omni-Conditions”, che integra più segnali di input come i riferimenti audio, testo e posa, migliora l’accuratezza delle previsioni del movimento.
Ho provato Cogvideox, un altro text-video AI open source
Nonostante i promettenti progressi nella generazione di video AI, le implicazioni etiche sono significative. La tecnologia introduce rischi come il potenziale per l’uso improprio di DeepFake nel generare media fuorvianti, furto di identità e altre applicazioni dannose. Di conseguenza, Bytedance non ha ancora rilasciato Omnihuman-1 per uso pubblico, probabilmente a causa di queste preoccupazioni. Se diventa disponibile al pubblico, saranno probabilmente necessarie forti salvaguardie tra cui la filigrana digitale e il monitoraggio dell’autenticità dei contenuti per mitigare potenziali abusi.
Credito immagine in primo piano: Claudio Schwarz/Unsplash