Google’s Gemini Live, inizialmente rivelato al fatto di Google Event’s Made By Google, sta ricevendo aggiornamenti significativi. Questi miglioramenti includono sovrapposizioni visive durante la condivisione dei feed della fotocamera e un nuovo modello audio progettato per conversazioni più naturali. Gli aggiornamenti mirano a rendere Gemini Live un assistente digitale più utile e reattivo.
Dalla sua introduzione, Gemelli vivono ha visto diversi miglioramenti, in particolare la capacità di condividere feed e schermi della fotocamera. Google ha ora annunciato un miglioramento delle sue capacità di condivisione della fotocamera e un nuovo modello audio nativo per migliorare ulteriormente la naturalezza delle interazioni con l’IA Chatbot.
Durante la presentazione della prossima serie di Google Pixel 10, Google ha fornito dettagli sui prossimi miglioramenti a Gemini Live su Android. Una caratteristica chiave è l’aggiunta di sovrapposizioni visive che evidenziano oggetti specifici all’interno del feed della fotocamera. Questi segnali visivi assumono la forma di rettangoli bordati bianchi attorno agli oggetti di interesse, con l’area circostante leggermente attenuata per garantire importanza.
La funzione “Visual Guidance” ha lo scopo di aiutare gli utenti a localizzare e identificare rapidamente gli articoli all’interno del campo visivo della fotocamera. Esempi di usi previsti includono l’evidenziazione del pulsante corretto su una macchina, l’identificazione di un uccello specifico all’interno di un gregge o la pinting dello strumento giusto per un determinato progetto. La funzionalità si estende inoltre alla fornitura di consigli, come consigliare calzature appropriate per un’occasione specifica.
La capacità di orientamento visiva può anche gestire scenari più impegnativi. Un product manager di Google ha raccontato un’esperienza personale durante un viaggio internazionale in cui ha incontrato difficoltà a interpretare i parcheggi in lingua straniera, i marcature stradali e le normative locali. Usando Gemini Live, il Product Manager ha puntato la fotocamera sulla scena e ha chiesto informazioni sull’ammissione al parcheggio. Gemini Live ha quindi consultato le regole locali, ha tradotto i segnali e ha messo in evidenza un’area sulla strada che offre un parcheggio gratuito per due ore.
La guida visiva sarà disponibile direttamente sulla serie di Google Pixel 10 e inizierà il suo lancio ad altri dispositivi Android la settimana successiva. L’espansione ai dispositivi iOS è pianificata nelle settimane successive. Non sarà necessario un abbonamento a Google AI Pro o Ultra per accedere alla funzione di guida visiva.
Oltre alle sovrapposizioni visive, Google sta implementando un nuovo modello audio nativo all’interno di Gemini Live. Questo modello è progettato per facilitare conversazioni più reattive ed espressive.
Il nuovo modello audio risponderà in modo più appropriato in base al contesto della conversazione. Ad esempio, quando si discute di un argomento stressante, il modello audio risponderà usando un tono più calmo e misurato.
Gli utenti avranno il controllo delle caratteristiche del linguaggio del modello audio. Se un utente ha difficoltà a tenere il passo con il discorso di Gemini, può richiedere di parlare più lentamente. Al contrario, quando il tempo è limitato, gli utenti possono istruire Gemini ad accelerare il suo discorso.
Il sistema può anche fornire narrazioni da prospettive specifiche. Come ha affermato Google nel suo post sul blog, gli utenti possono “chiedere a Gemini di parlarti dell’Impero romano dalla prospettiva dello stesso Giulio Cesare e ottenere una narrazione ricca e coinvolgente completa di accenti del personaggio”.
Questo articolo è stato aggiornato alle 19:50 ET per fornire chiarimenti sul modello audio naturale e incorporare le risorse dimostrative dal post sul blog di Google.





