Elevenlabs, una startup di intelligenza artificiale riconosciuta per le sue capacità di audio-generazione, lanciato Un modello di discorso a testo autonomo chiamato Scribe. Il lancio segue un sostanziale round di finanziamento di $ 180 milioni, elevando la valutazione dell’azienda a $ 3,3 miliardi.
ElevenLabs lancia Scribe: un nuovo modello di discorso sull’intelligenza artificiale
Scribe supporta oltre 99 lingue e raggiunge un tasso di errore di parole inferiore al 5% in oltre 25 lingue, incluso l’inglese, che ha un tasso di accuratezza rivendicato del 97%. Altre lingue nell’eccellente categoria di precisione includono francese, tedesco, hindi, indonesiano, giapponese, kannada, malayalam, polacco, portoghese, spagnolo e vietnamita. Ulteriori lingue sono classificate con tassi di errore variabili da alto (dal 5% al 10%) a moderare (dal 25% al 50%).
Video: Elevenlabs
Secondo quanto riferito, il nuovo modello supera Google Gemini 2.0 Flash e Opens’s Whisper Large V3 in più lingue in base a Fleurs e test di riferimento vocale comuni. Scribe è il primo modello di rilevamento vocale separato di ElevenLabs, che aveva precedentemente integrato i componenti del parlato-testo nella sua piattaforma di agenti conversazionali di intelligenza artificiale.
Gli abbonati Chatgpt plus ora godono di una funzione di ricerca profonda
Il CEO Mati Staniszewski ha evidenziato l’obiettivo di migliorare la comprensione delle conversazioni: “Stiamo lavorando su come allontanarci dal solo generazione di contenuti, comprensione e trascrizione”, ha affermato. Il modello è dotato di diarizzazione degli altoparlanti, timestamp a livello di parole per sottotitoli accurati e tagging automatico di eventi audio non verbali.
Scribe è attualmente limitato ai formati audio preregistrati, con una versione in tempo reale che dovrebbe essere rilasciata presto. Il prezzo di Scribe è di $ 0,40 all’ora di audio trascritto, con uno sconto introduttivo del 50% disponibile per le prime sei settimane.

I test di riferimento indicano che Scribe registra i tassi di errore delle parole più bassi per varie lingue, raggiungendo il 98,7% in italiano e il 96,7% in inglese. Le caratteristiche chiave includono la possibilità di differenziare gli altoparlanti in registrazioni multi-altoparlanti, timestamp dettagliati e rilevamento di eventi non di discorso.
Per gli utenti aziendali, Scribe funge da strumento di trascrizione scalabile, benefico per i settori che si basano su documentazione, trascrizioni di incontri e iniziative di accessibilità. La prossima versione in tempo reale potrebbe migliorare ulteriormente la sua utilità negli scenari di comunicazione dal vivo.
Il lancio di Scribe ha coinciso con il rilascio di Octave di Hume Ai, un modello personalizzabile e alimentato da LLM su misura per la creazione di contenuti. ElevenLabs afferma che Scribe ha costantemente sovraperformato i concorrenti nell’accuratezza della trascrizione.
È possibile accedere a Scribe direttamente tramite il sito Web o l’API di ElevenLabs, consentendo agli utenti di caricare file audio o video per trascrizioni formattate. La sua produzione strutturata aiuta l’integrazione in varie applicazioni, presentando un’opzione competitiva per le aziende che cercano servizi di trascrizione ad alta precisione.
Credito immagine in primo piano: Elevenlabs