Il Voice Engine di OpenAI è stato introdotto come una nuova tecnologia di sintesi vocale, in grado di generare una voce sintetica da un campione audio di soli 15 secondi della voce di un individuo. Questo strumento innovativo può vocalizzare i messaggi di testo come richiesto, sia nella lingua originale della voce registrata che in varie altre lingue.
“Queste implementazioni su piccola scala stanno aiutando a definire il nostro approccio, le nostre misure di salvaguardia e la nostra riflessione su come Voice Engine potrebbe essere utilizzato in modo positivo in vari settori”, ha affermato OpenAI nel suo post sul blog.
Tra le organizzazioni a cui è stato concesso l’accesso anticipato figurano Età dell’apprendimentoun’azienda specializzata in tecnologie didattiche; Ehi Genuna piattaforma per la narrazione visiva; Dimagiuno sviluppatore di software sanitario per operatori sul campo; Livox, che produce un’applicazione di comunicazione basata sull’intelligenza artificiale; E Duratauna rete sanitaria.
Quanto è efficace Voice Engine di OpenAI?
Ora presenteremo un audio di riferimento insieme a tre campioni generati da OpenAI, accompagnati dalle rispettive trascrizioni. Sta a te determinare l’efficacia del Voice Engine di OpenAI considerando gli esempi condivisi. Tuttavia, non sarà possibile effettuare una valutazione definitiva finché la funzionalità non sarà ampiamente disponibile per gli utenti finali.
- L’audio in ingresso.
- Il sale ci assicura anche di rimanere idratati, il che significa che c’è abbastanza acqua nel nostro corpo per funzionare correttamente.
- Rendiamo le parti uguali aggiungendo da una a tre!
- Alcuni degli habitat più straordinari della Terra si trovano nella foresta pluviale. Una foresta pluviale è un luogo con molte precipitazioni e dove vivono molti tipi di animali, alberi e altre piante. Le foreste pluviali tropicali solitamente non sono troppo lontane dall’equatore e sono calde tutto l’anno.
OpenAI ha annunciato lo sviluppo della sua tecnologia Voice Engine alla fine del 2022evidenziandone l’applicazione nel fornire voci preimpostate per le API di sintesi vocale e abilitando il Funzionalità Leggi ad alta voce in ChatGPT. Di recente, il team di prodotto OpenAI ha affermato che la tecnologia è stata perfezionata utilizzando sia dati concessi in licenza che dati accessibili pubblicamente. OpenAI ha indicato che inizialmente, questa tecnologia sarà accessibile a circa 10 sviluppatori.
Il campo della conversione da testo ad audio basata sull’intelligenza artificiale sta avanzando rapidamente. Mentre la maggior parte degli sviluppi hanno riguardato la creazione di suoni strumentali o ambientali, la creazione di voci sintetiche ha visto meno attività, una situazione che OpenAI attribuisce alle preoccupazioni etiche coinvolte. Alcune entità attive in questo dominio includono Podcastle e ElevenLabs.
OpenAI ha confermato che i suoi collaboratori si sono impegnati ad aderire alle sue politiche di utilizzo, che precludono l’uso di Voice Generation per impersonare individui o entità senza consenso. Inoltre, questi accordi stabiliscono che i collaboratori debbano ottenere un consenso chiaro e volontario dalle persone le cui voci vengono utilizzate, impedire agli utenti di generare voci in modo indipendente e informare gli ascoltatori che le voci sono sintetizzate dall’intelligenza artificiale. Per garantire la tracciabilità dei suoi output audio, OpenAI ha incorporato la filigrana nei clip audio ed è vigile nel supervisionarne l’utilizzo.

OpenAI ha proposto una serie di misure volte a mitigare i potenziali rischi associati a tecnologie di questa natura. Questi includono l’abbandono dell’uso della verifica vocale per l’accesso bancario, l’implementazione di regolamenti per salvaguardare i dati vocali delle persone nelle applicazioni di intelligenza artificiale, la sensibilizzazione del pubblico sui deepfake generati dall’intelligenza artificiale e la creazione di meccanismi per il monitoraggio dei contenuti generati dall’intelligenza artificiale.
“Riconosciamo che generare un discorso che assomigli alla voce della gente comporta seri rischi, che sono particolarmente importanti in un anno elettorale. Stiamo collaborando con partner statunitensi e internazionali provenienti da tutto il governo, i media, l’intrattenimento, l’istruzione, la società civile e oltre per assicurarci di incorporare il loro feedback mentre costruiamo”, ha detto OpenAI.
Casi d’uso per la funzionalità Voice Engine di OpenAI
OpenAI suggerisce che i seguenti casi d’uso di Voice Engine sono esempi praticabili della sua applicazione, tuttavia sottolinea che il vero limite ai suoi potenziali usi è limitato solo dalla propria immaginazione:
- Assistenza educativa: Voice Engine può essere utilizzato per fornire aiuto nella lettura ai non lettori e ai bambini creando voci naturali ed emotive. Ciò aiuta a generare contenuti voice over preimpostati e interazioni personalizzate in tempo reale con gli studenti, ampliando così la gamma di contenuti educativi accessibili.
- Traduzione dei contenuti: questa tecnologia può consentire la traduzione di video e podcast, consentendo ai creatori e alle aziende di raggiungere un pubblico globale con la propria voce. Mantiene l’accento nativo del parlante originale in tutte le lingue, preservando così l’autenticità del contenuto tradotto.
- Erogazione di servizi in comunità remote: Voice Engine potrebbe migliorare l’erogazione dei servizi essenziali fornendo feedback interattivo nelle lingue principali degli operatori sanitari della comunità. Ciò sostiene lo sviluppo delle competenze in vari servizi essenziali, come la consulenza sulla salute materna, nelle lingue e nei dialetti specifici delle comunità remote.
- Supporto per individui non verbali: La tecnologia alimenta dispositivi che aiutano le persone non verbali a comunicare. Gli utenti possono scegliere voci che li rappresentino accuratamente in più lingue, rendendo la comunicazione più personale e meno robotica.
- Recupero della voce per pazienti con disturbi del linguaggio: Offre una soluzione per soggetti affetti da disturbi del linguaggio dovuti a condizioni improvvise o degenerative. Richiedendo solo un breve campione audio, Voice Engine può ricreare la voce del paziente, aiutandolo a ritrovare la capacità di comunicare con la sua voce naturale.
Credito immagine in primo piano: Kerem Gülen/Metà viaggio