Il CEO di Google DeepMind Demis Hassabis ha rivelato i piani per fondere alla fine l’IA Gemini dell’azienda con il suo generatore di video Veo, con l’obiettivo di insegnare all’IA più sul mondo fisico, durante una recente apparizione sul Possibile podcast.
Hassabis ha spiegato che la strategia si allinea alla loro visione per un “assistente digitale universale” in grado di aiutare gli utenti in scenari del mondo reale. “Abbiamo sempre costruito Gemini, il nostro modello di fondazione, per essere multimodale dall’inizio”, ha dichiarato sul podcast co-ospitato da Reid Hoffman.
Questa mossa riflette uno spostamento del settore più ampio verso modelli “omni” versatili. Le ultime versioni Gemini di Google gestiscono già l’audio, l’immagine e la generazione di testo, mentre i rivali come Openai Abilita creazione di immagini In Chatgpt e Amazon intende per lanciare un modello “qualsiasi a qualsiasi”.
Lo sviluppo di questi modelli completi richiede vasti set di dati che abbracciano video, immagini, audio e testo. Hassabis ha lasciato intendere che i dati video che alimentano Veo hanno origine in gran parte da YouTube, una piattaforma di proprietà di Google.
Ha elaborato che elaborando un ampio contenuto di YouTube, Veo apprende la fisica del mondo reale. “[Veo 2] Riesci a capire, sai, la fisica del mondo “, ha commentato Hassabis riguardo al modello che guarda” molti video di YouTube “.
Google precedentemente riconosciuto a TechCrunch I suoi modelli “possono essere” addestrati su “alcuni” contenuti YouTube, in linea con gli accordi con i creatori. I rapporti suggeriscono che Google ha aggiornato i suoi termini di servizio l’anno scorso, ampliando potenzialmente l’accesso ai dati a fini di formazione AI.