Google ha lanciato un nuovo strumento di generazione di immagini AI chiamato Whisk, che consente agli utenti di creare output visivi da immagini esistenti. Annunciato tramite un aggiornamento su Google Labs, Whisk utilizza il modello linguistico Gemini per la comprensione delle immagini e il generatore di immagini Imagen 3. Attualmente è disponibile solo negli Stati Uniti
Google lancia Whisk: strumento AI per la generazione di immagini creative
Whisk opera catturando “l’essenza” dell’immagine fornita anziché riprodurla direttamente. Gli utenti inseriscono un’immagine insieme a stili predefiniti, tra cui adesivo, spilla smaltata e peluche, per ricevere un output modificato in modo creativo. Questo strumento si concentra sul brainstorming e sulle visualizzazioni rapide, piuttosto che sul contenuto della produzione finale. L’interfaccia semplicistica aiuta gli utenti a generare concetti preliminari.
La modalità editor avanzata, accessibile tramite l’opzione “Inizia da zero”, fornisce agli utenti opzioni per specificare i dettagli nelle categorie di soggetto, scena e stile. Gli utenti possono anche aggiungere testo per perfezionarlo. Tuttavia, alcuni risultati non sono stati del tutto allineati con le aspettative degli utenti, come osservato durante i test. Google avverte che Whisk varierà gli attributi delle immagini di output, come altezza, peso e acconciatura, rispetto all’input originale.
Sotto il cofano, la funzionalità di Whisk si basa sulla capacità del modello Gemini di generare didascalie dettagliate sull’immagine caricata. Queste didascalie vengono quindi utilizzate dal generatore Imagen 3 per creare nuove immagini. Il processo evidenzia l’obiettivo di Whisk di promuovere la libertà creativa, consentendo agli utenti di remixare elementi in diversi formati visivi.
In concomitanza con il lancio di Whisk, Google ha introdotto Veo 2, una nuova iterazione del suo modello di generazione video. Questo ultimo aggiornamento dimostra capacità di generazione video migliorate, producendo contenuti di alta qualità con una comprensione sofisticata della fisica del mondo reale e dei movimenti umani. Durante i test, Veo 2 ha mostrato una frequenza ridotta di “allucinazioni”, che in genere coinvolgono dettagli errati o inaspettati nel contenuto generato.
Gli utenti possono richiedere stili o attributi di ripresa specifici nei loro messaggi video, migliorando il livello di dettaglio all’interno degli output generati, inclusa la richiesta di video con risoluzione 4K. I video prodotti da Veo 2 esemplificano i risultati cinematografici di alta qualità ora ottenibili, soddisfacendo efficacemente le varie esigenze degli utenti.
Anche il modello Imagen 3 ha ricevuto un aggiornamento, in grado di produrre immagini significativamente più luminose e meglio composte in una vasta gamma di stili. Questo modello migliorato segue in modo più accurato le istruzioni dell’utente e genera trame complesse. Attraverso test utente rispetto a modelli concorrenti di generazione di immagini, Imagen 3 ha ottenuto risultati all’avanguardia.
Nell’ambito dell’impegno di Google per uno sviluppo responsabile dell’intelligenza artificiale, i risultati sia di Whisk che dei modelli più recenti includono una filigrana SynthID invisibile, che aiuta a prevenire la disinformazione. Questa attenzione alla sicurezza accompagna un attento processo di implementazione. Gli utenti possono accedere a queste nuove funzionalità tramite Google Labs, dove possono registrarsi per ricevere aggiornamenti e miglioramenti delle funzionalità.
Crediti immagine: Google