Google ha annunciato il lancio di due modelli di intelligenza artificiale generativa, Veo e Imagen 3, disponibili per le aziende che utilizzano Vertex AI, la sua piattaforma cloud per strumenti di intelligenza artificiale. Veo è progettato per generare video ad alta definizione da immagini e istruzioni di testo, mentre Imagen 3 si concentra sulla produzione di immagini realistiche da semplici input di testo.
Google lancia i modelli di intelligenza artificiale generativa Veo e Imagen 3 per le aziende
Veo, sviluppato da Google DeepMind, genera video con persone e animali dall’aspetto realistico. Gli utenti possono creare contenuti caricando un’immagine legata a un messaggio di testo o inserendo solo il testo. Attualmente, Veo sarà accessibile ad aziende selezionate tramite un’anteprima privata. Produce videoclip a 1080p della durata massima di sei secondi, supportando 24 o 30 fotogrammi al secondo. Secondo Warren Barkley, direttore senior della gestione dei prodotti di Google Cloud, la risposta delle aziende all’intelligenza artificiale generativa è stata straordinariamente positiva, con rapporti che indicano un aumento dei ricavi dell’86% tra le aziende che hanno integrato queste tecnologie.
Richiesta: Timelapse dell’aurora boreale che danza nel cielo artico, stelle scintillanti, paesaggio innevato
Video: Google
Immagine 3anch’esso lanciato di recente, è pubblicizzato come il modello di generazione di immagini di altissima qualità di Google. Può creare immagini fotorealistiche e offre funzionalità di modifica avanzate, come aggiungere, rimuovere o estendere elementi all’interno di un’immagine. A partire dalla prossima settimana, tutti i clienti Vertex AI avranno accesso a Imagen 3. Marchi come Cadbury, Oreo e Milka sono tra i primi a utilizzare questi modelli nelle loro strategie di marketing.
Entrambi i modelli incorporano filigrane digitali per prevenire disinformazione e attribuzione errata, utilizzando la tecnologia SynthID di Google DeepMind. Inoltre, includono misure di sicurezza integrate per prevenire usi impropri e la generazione di contenuti dannosi. È importante sottolineare che nessuno dei due modelli è addestrato sui dati dei clienti.
Capacità e limiti di Veo
La disponibilità di Veo in anteprima privata consentirà ad aziende come Quora e Mondelez International di esplorare applicazioni creative, come la generazione di contenuti video per le loro piattaforme. La capacità di Veo di creare scene con stili visivi specifici è una delle sue caratteristiche principali. Può produrre contenuti dinamici, inclusi scatti di paesaggi e video time-lapse. Tuttavia, il modello non è esente da difetti. Problemi come la scomparsa di oggetti e la fisica irrealistica, come la retromarcia dei veicoli, ne evidenziano i limiti attuali.
Richiesta: Una ripresa rapida lungo una strada residenziale suburbana fiancheggiata da alberi. Giorno con un cielo azzurro e limpido. Colori saturi, contrasto elevato
Video: Google
Veo è stato addestrato su una vasta gamma di filmati per migliorare le sue capacità. Alla domanda sulle sue fonti di formazione, Barkley ha affermato che “potrebbe” includere contenuti di YouTube, in linea con gli accordi con i creatori di contenuti. Ha sottolineato che Google si concentra sull’utilizzo di dati curati e di alta qualità, aderendo agli standard di sicurezza. Come con altri modelli di intelligenza artificiale, sorgono preoccupazioni sul copyright e sui contenuti proprietari, in particolare con la possibilità che i modelli producano copie quasi identiche del lavoro esistente.
Google afferma di aver implementato filtri a livello di prompt per gestire output potenzialmente dannosi. Inoltre, la società prevede di indennizzare i risultati di Veo su Vertex AI una volta che saranno disponibili al pubblico, offrendo una certa protezione alle aziende che utilizzano lo strumento.
Google sta gradualmente integrando Veo nella sua suite di prodotti, come evidenziato dalla sua introduzione in Google Labs all’inizio di quest’anno dopo gli annunci iniziali. A settembre, il modello è stato incorporato in YouTube Shorts, consentendo ai creatori di produrre facilmente scene di sfondo e brevi videoclip.
Credito immagine in primo piano: Google DeepMind