Speechify, una società nota per gli strumenti di sintesi vocale che convertono articoli, PDF e documenti in audio, ha introdotto la digitazione vocale e un assistente vocale nella sua estensione Chrome. Questa espansione risponde all’aumento degli strumenti di rilevamento vocale negli ultimi 12 mesi, guidato dai progressi nei modelli di riconoscimento vocale. Le funzionalità supportano l’inglese e includono la correzione degli errori e la rimozione delle parole di riempimento. Speechify originariamente si concentrava nel consentire agli utenti di ascoltare contenuti scritti attraverso la sua piattaforma, trasformando il testo statico in narrazioni parlate per una fruizione più semplice. Con l’aggiunta delle funzionalità di rilevamento vocale, l’azienda si sposta verso esperienze audio interattive. La funzione di digitazione vocale consente la dettatura direttamente all’interno del browser, catturando le parole pronunciate e convertendole in testo, correggendo automaticamente le imprecisioni comuni come termini mal compresi o frasi ripetute. Ciò è in linea con le tendenze più ampie del settore in cui le reti neurali migliorate nel riconoscimento vocale hanno ridotto la latenza e aumentato la precisione, rendendo l’input vocale in tempo reale utilizzabile per le applicazioni quotidiane. Durante un periodo di prova superiore a un giorno, la digitazione vocale ha funzionato in modo affidabile in applicazioni come Gmail e Google Docs, dove l’attivazione è avvenuta senza problemi e l’inserimento del testo ha seguito l’input vocale senza ritardi significativi. Le sfide sono sorte su piattaforme come WordPress, dove l’avvio della dettatura si è rivelato incoerente e l’output conteneva occasionalmente errori irrisolti. I rappresentanti di Speechify hanno spiegato che i miglioramenti per i siti Web ampiamente utilizzati vengono implementati in fasi per garantire la compatibilità e perfezionare le prestazioni in diversi ambienti. I confronti di accuratezza hanno rivelato che la digitazione vocale di Speechify mostrava un tasso di errori di parole più elevato rispetto ai concorrenti, tra cui Wispr Flow, Willow e Monologue. Queste alternative hanno dimostrato un minor numero di casi di trascrizioni errate in scenari simili. Speechify ha sottolineato che il suo modello sottostante si adatta più rapidamente ai modelli dei singoli utenti attraverso l’interazione continua, portando a un progressivo declino del tasso di errore man mano che si accumula familiarità con la voce e lo stile di parlare di chi parla. L’assistente vocale si integra nella barra laterale del browser, fornendo un’interfaccia persistente per le query in linguaggio naturale relative alla pagina web attiva. Gli utenti possono porre richieste specifiche, come identificare i tre concetti primari nel contenuto o richiedere una spiegazione semplificata di sezioni complesse. Questa configurazione facilita la comprensione rapida senza navigazione manuale, migliorando l’accessibilità per gli studenti uditivi o per coloro che svolgono più attività contemporaneamente. https://www.youtube.com/watch?v=7kL3XTaTFHE Speechify posiziona la voce come modalità di interazione centrale, in contrasto con piattaforme come ChatGPT e Gemini. Rohan Pavuluri, direttore commerciale dell’azienda, ha dichiarato in una e-mail a TechCrunch“Crediamo che la chat sarà sempre l’esperienza utente predefinita in ChatGPT e Gemini quando apri le app. Questo è ciò che i loro utenti si aspettano. La voce sarà sempre secondaria e, in molti casi, un ripensamento per ChatGPT e Gemini. Sappiamo da diversi anni di sviluppo di Speechify che esiste un’ampia porzione di mercato, che include i nostri utenti, che desiderano la voce come impostazione predefinita principale ogni volta che aprono un’app e parlano con l’intelligenza artificiale.” Questa prospettiva trae spunto dalla consolidata base di utenti di Speechify, che da tempo dà priorità all’audio rispetto al coinvolgimento basato sul testo. Esistono limitazioni di compatibilità per i browser dotati di assistenti nativi della barra laterale, come Atlas di OpenAI, Comet di Perplexity e Dia, dove lo strumento Speechify non si attiva. L’estensione si rivolge principalmente a Chrome, sfruttando la sua vasta popolazione di utenti per un’adozione diffusa e la raccolta di feedback. L’implementazione sia della digitazione vocale che dell’assistente si estende oltre l’estensione di Chrome. Speechify intende incorporare nel tempo queste funzionalità nella sua suite completa di applicazioni desktop e mobili, garantendo una disponibilità coerente su tutti i dispositivi e sistemi operativi. Oltre alle versioni attuali, Speechify sta portando avanti lo sviluppo di agenti autonomi progettati per eseguire attività in modo indipendente. Una capacità dimostrata prevede l’effettuazione di chiamate in uscita per fissare appuntamenti o la gestione dei tempi di attesa sulle linee di assistenza clienti, liberando gli utenti dal coinvolgimento diretto. Iniziative simili sono in corso presso altre aziende, tra cui Truecaller e Cloaked, che sono anche agenti di ingegneria per interazioni automatizzate in contesti di comunicazione e privacy.





