Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Google Gemini ora trascrive file audio

byAytun Çelebi
11 Settembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Google’s Gemini AI Assistant ora consente carichi di file audio, consente agli utenti di trascrivere, riassumere ed estrarre informazioni chiave dalle registrazioni. Questa nuova funzionalità converte fino a 10 minuti di memo vocali, riunioni, lezioni e interviste a documenti ricercabili direttamente all’interno dell’ambiente AI. I carichi di file audio sono supportati sia su applicazioni Web che mobili. Gli utenti possono accedere alla funzionalità tramite l’interfaccia standard di Upload. Ciò differisce dall’elaborazione dei comandi vocali in tempo reale di Gemini Live, poiché la nuova funzione elabora l’audio preregistrato per l’estrazione e l’analisi dei dati. Josh Woodward, vicepresidente di Gemini di Google, ha dichiarato che il caricamento dei file audio era la funzionalità più richiesta dagli utenti di Gemini. Questa domanda evidenzia la necessità di elaborazione audio semplificata all’interno dell’assistente AI.

Accuratezza della trascrizione e integrazione delle caratteristiche

Durante i test, Gemini trascriveva accuratamente vari tipi audio, tra cui schizzi di album comici e conversazioni telefoniche, con solo errori minori nel riconoscimento dei nomi. Il sistema ha inoltre identificato efficacemente elementi chiave e generato elenchi di cose da fare dal contenuto audio. L’aggiunta di elaborazione audio si allinea con le recenti integrazioni di Gemini, come le implementazioni in varie app, il test di un’interfaccia visiva basata su schede e le opzioni di personalizzazione ampliate. Questi aggiornamenti migliorano collettivamente la funzionalità e l’esperienza dell’utente di Gemini.

Confronto con altri assistenti di intelligenza artificiale

Mentre le capacità audio di Gemini non sono uniche, sono paragonabili alle funzionalità di concorrenti come Chatgpt, che utilizza il suo modello di trascrizione sussurrato. Claude di Antropico supporta anche l’elaborazione audio in alcuni strumenti per sviluppatori e la perplessità può estrarre dati dai video di YouTube. Gemini mira a concentrarsi sui casi d’uso quotidiani per un’ampia base di utenti.

Elaborazione avanzata dei dati audio

Al di là della semplice trascrizione, Gemini consente agli utenti di richiedere la semplificazione del linguaggio, estrarre commenti specifici per altoparlanti, generare domande dal contenuto audio o creare guide di studio da discussioni registrate. Queste opzioni forniscono strumenti per manipolare e riutilizzare in modo efficiente le informazioni audio.

Limitazioni della funzione audio

L’attuale limite di 10 minuti sui carichi di file audio ne limita l’applicabilità per registrazioni più lunghe. Gli utenti di livello gratuito affrontano anche limiti di utilizzo giornalieri sull’elaborazione audio. Queste limitazioni possono avere un impatto sugli utenti con estese esigenze di elaborazione audio. Google non ha rilasciato prezzi specifici per l’elaborazione audio ad alto volume. Tuttavia, l’elaborazione audio è integrata nella normale quota Gemelli. Ciò suggerisce che gli utenti dovrebbero gestire il proprio utilizzo per evitare di superare le risorse allocate.


Credito d’immagine in primo piano

Tags: Google Gemini

Related Posts

OpenAI lancia ChatGPT Translate autonomo

OpenAI lancia ChatGPT Translate autonomo

15 Gennaio 2026
I tempi di lancio di DeepSeek V4 e R2 rimangono nascosti

I tempi di lancio di DeepSeek V4 e R2 rimangono nascosti

15 Gennaio 2026
I Gemelli acquisiscono l'intelligenza personale per sintetizzare i dati da Gmail e Foto

I Gemelli acquisiscono l'intelligenza personale per sintetizzare i dati da Gmail e Foto

15 Gennaio 2026
Amazon aggiorna forzatamente i membri Prime ad Alexa+

Amazon aggiorna forzatamente i membri Prime ad Alexa+

14 Gennaio 2026
Google aggiorna Veo 3.1 con la generazione video verticale nativa

Google aggiorna Veo 3.1 con la generazione video verticale nativa

14 Gennaio 2026
Slackbot ora ha capacità di agente grazie ad Anthropic

Slackbot ora ha capacità di agente grazie ad Anthropic

14 Gennaio 2026

Recent Posts

  • L'interruzione di Verizon di 10 ore è stata finalmente risolta
  • OpenAI riassume i migliori talenti mentre la startup da 12 miliardi di dollari di Murati perde co-fondatori
  • OpenAI annuncia un accordo da 10 miliardi di dollari con Cerebras per 750 MW di elaborazione
  • Netflix lancia podcast video con Pete Davidson e Michael Irvin
  • Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.