Gemini Live è qui per rivaleggiare con la modalità vocale avanzata di ChatGPT

Google ha presentato la sua nuova funzionalità basata sull’intelligenza artificiale, Gemini Live, al recente evento Made by Google. Questo strumento innovativo offre agli utenti la possibilità di impegnarsi in conversazioni basate sulla voce con un’intelligenza artificiale, basata sull’ultimo modello linguistico di grandi dimensioni di Google.

Posizionandosi come concorrente diretto di Advanced Voice Mode di OpenAI in ChatGPT, che rimane in fase di test alpha limitata, Google ha compiuto un passo significativo diventando il primo a rilasciare questa funzionalità completamente sviluppata. Mentre OpenAI ha inizialmente introdotto un concetto simile, il rapido follow-up di Google sorprende molti.

Cosa offre Gemini Live?

Gemini Live migliora le interazioni AI mobili consentendo conversazioni dinamiche e fluide. Questa funzionalità consente in modo unico agli utenti di interrompere l’AI a metà risposta per esplorare punti specifici in modo più approfondito o per mettere in pausa e riprendere le chat a loro piacimento, offrendo essenzialmente un aiutante digitale accessibile in qualsiasi momento.

Inoltre, Gemini Live supporta il funzionamento a mani libere. Gli utenti possono continuare a interagire con l’IA anche quando il telefono è in background o bloccato, imitando il flusso naturale di una chiamata telefonica tradizionale. A partire da oggi, questa funzionalità è disponibile in inglese per gli abbonati Gemini Advanced su Android, con piani per estendere il supporto agli utenti iOS e ad altre lingue nel prossimo futuro.

Gli utenti potranno presto usufruire di nuove estensioni come Keep, Tasks, Utilities e funzionalità avanzate su YouTube Music. Ad esempio, gli utenti possono recuperare ricette dalle e-mail, compilare liste della spesa o creare playlist musicali nostalgiche, il tutto senza il fastidio di dover passare da un’applicazione all’altra.

Inoltre, l’estensione Calendar consentirà agli utenti di gestire i propri programmi in modo più efficiente. Semplicemente scattando una foto di un volantino di un concerto, gli utenti possono controllare la propria disponibilità in quella data e impostare promemoria per acquistare i biglietti.

Arricchendo ulteriormente l’ecosistema Android, la profonda integrazione di Gemini fornisce capacità consapevoli del contesto che elevano l’esperienza utente. Gli utenti possono accedere a Gemini tramite una semplice pressione prolungata sul pulsante di accensione o dicendo “Hey Google”. Questa integrazione consente agli utenti di interagire direttamente con i contenuti sui loro schermi, ad esempio richiedendo dettagli su un video che stanno guardando su YouTube o chiedendo a Gemini di aggiungere ristoranti da un vlog di viaggio in Google Maps.

Google sta anche affrontando la doppia sfida di potenziare le capacità dell’IA garantendo velocità e accuratezza. Nuovi modelli come Gemini 1.5 Flash vengono introdotti per fornire risposte più rapide e affidabili. Google prevede di continuare a perfezionare questi aspetti ed espandere le integrazioni con altri servizi Google, tra cui Home e Messaggi.

Google ha implementato alcune restrizioni con Gemini Live, come spiegato dal Product Manager Leland Rechis. In particolare, la funzionalità non consentirà di cantare o imitare voci oltre le dieci opzioni predefinite. Questa decisione è probabilmente una precauzione per evitare problemi di copyright.

Inoltre, a differenza del suo concorrente OpenAI, che ha enfatizzato il riconoscimento vocale emozionale durante le sue demo, Google ha scelto di non dare priorità alla capacità di Gemini Live di rilevare sfumature emozionali nelle voci degli utenti. Questa attenzione, o mancanza di essa, potrebbe essere vista come una divergenza strategica da OpenAI, soprattutto considerando le controversie passate come l’incidente in cui un La voce di OpenAI assomigliava molto all’attrice Scarlett Johansson.

Credito immagine in evidenza: Google