Google’s Gemini AI Assistant ora consente carichi di file audio, consente agli utenti di trascrivere, riassumere ed estrarre informazioni chiave dalle registrazioni. Questa nuova funzionalità converte fino a 10 minuti di memo vocali, riunioni, lezioni e interviste a documenti ricercabili direttamente all’interno dell’ambiente AI. I carichi di file audio sono supportati sia su applicazioni Web che mobili. Gli utenti possono accedere alla funzionalità tramite l’interfaccia standard di Upload. Ciò differisce dall’elaborazione dei comandi vocali in tempo reale di Gemini Live, poiché la nuova funzione elabora l’audio preregistrato per l’estrazione e l’analisi dei dati. Josh Woodward, vicepresidente di Gemini di Google, ha dichiarato che il caricamento dei file audio era la funzionalità più richiesta dagli utenti di Gemini. Questa domanda evidenzia la necessità di elaborazione audio semplificata all’interno dell’assistente AI.
Accuratezza della trascrizione e integrazione delle caratteristiche
Durante i test, Gemini trascriveva accuratamente vari tipi audio, tra cui schizzi di album comici e conversazioni telefoniche, con solo errori minori nel riconoscimento dei nomi. Il sistema ha inoltre identificato efficacemente elementi chiave e generato elenchi di cose da fare dal contenuto audio. L’aggiunta di elaborazione audio si allinea con le recenti integrazioni di Gemini, come le implementazioni in varie app, il test di un’interfaccia visiva basata su schede e le opzioni di personalizzazione ampliate. Questi aggiornamenti migliorano collettivamente la funzionalità e l’esperienza dell’utente di Gemini.
Confronto con altri assistenti di intelligenza artificiale
Mentre le capacità audio di Gemini non sono uniche, sono paragonabili alle funzionalità di concorrenti come Chatgpt, che utilizza il suo modello di trascrizione sussurrato. Claude di Antropico supporta anche l’elaborazione audio in alcuni strumenti per sviluppatori e la perplessità può estrarre dati dai video di YouTube. Gemini mira a concentrarsi sui casi d’uso quotidiani per un’ampia base di utenti.
Elaborazione avanzata dei dati audio
Al di là della semplice trascrizione, Gemini consente agli utenti di richiedere la semplificazione del linguaggio, estrarre commenti specifici per altoparlanti, generare domande dal contenuto audio o creare guide di studio da discussioni registrate. Queste opzioni forniscono strumenti per manipolare e riutilizzare in modo efficiente le informazioni audio.
Limitazioni della funzione audio
L’attuale limite di 10 minuti sui carichi di file audio ne limita l’applicabilità per registrazioni più lunghe. Gli utenti di livello gratuito affrontano anche limiti di utilizzo giornalieri sull’elaborazione audio. Queste limitazioni possono avere un impatto sugli utenti con estese esigenze di elaborazione audio. Google non ha rilasciato prezzi specifici per l’elaborazione audio ad alto volume. Tuttavia, l’elaborazione audio è integrata nella normale quota Gemelli. Ciò suggerisce che gli utenti dovrebbero gestire il proprio utilizzo per evitare di superare le risorse allocate.





