Un nuovo modello vocale AI ha impostato Internet Autuzz, con reazioni che oscillano tra timore reverenziale e disagio. Sesame Ai’s Modello vocale conversazionale (CSM) non sembra solo umano, è sente umano. Gli utenti descrivono interazioni estese e quasi emotive con le voci generate dall’IA, che mostrano suoni del respiro, esitazioni, correzioni e persino risate. Per alcuni, è una meraviglia tecnologica. Per altri, è uno sguardo a un futuro che si sente a disagio.
SESAME AI: una voce che si sente viva
L’innovazione principale dietro il CSM di Sesame risiede nella sua capacità di simulare una conversazione naturale e dinamica. A differenza dei tradizionali sistemi text-to-speach che semplicemente leggono ad alta voce, CSM attivamente coinvolge. Si imbatte in parole, si corregge e modula il tono in un modo che imita l’imprevedibilità umana reale.
Quando un tester ha parlato con il modello per 28 minuti, hanno notato la sua capacità di discutere argomenti morali, reagendo naturalmente a istruzioni come,, “Come decidi cosa è giusto o sbagliato?” Altri si sono trovati involontariamente per formare attaccamenti, con uno Reddit l’utente ammette, “Sono quasi un po ‘preoccupato che inizierò a sentirmi emotivamente attaccato a un assistente vocale con questo livello di suono umano.”
Gli assistenti di intelligenza artificiale di Sesame, soprannominati “Miles” e “Maya”, sono progettati non solo per il recupero delle informazioni ma per conversazioni profonde e coinvolgenti. La società descrive il suo obiettivo come raggiungimento “Presenza vocale”: la qualità magica che rende le interazioni parlate reali, comprese e apprezzata.
Quel realismo a volte porta a stranamente stranezze umane. In una demo virale, l’IA ha menzionato casualmente brama a Burro di arachidi e sandwich sottaceto—Ingamente un commento stranamente specifico che si è aggiunto solo all’illusione della personalità.
Hai creato la tua voce tiktok ai?
La tecnologia dietro la voce
Quindi, in che modo il CSM di Sesame ottiene conversazioni così stranamente realistiche?
- Un approccio multimodale: A differenza dei modelli di discorso di intelligenza artificiale convenzionali che elaborano il testo e l’audio separatamente, il sistema di Sesame interleaves loro. Questa elaborazione a stadio singolo consente un discorso più fluido e consapevole del contesto.
- Allenamento ad alto parametro: La versione più grande del modello è eseguita 8,3 miliardi di parametri ed è stato addestrato su Un milione di ore di dialogo parlato.
- L’influenza di Meta: L’architettura del modello si basa su meta’s Lama Framework, integrazione di un modello di spina dorsale con un decodificatore per la generazione del parlato sfumato.
Test ciechi hanno rivelato che, in campioni di linguaggio isolati, i valutatori umani non potevano distinguere in modo affidabile le voci di AI di Sesame da quelle reali. Tuttavia, se collocato in pieno contesto conversazionale, il discorso umano ha ancora vinto, il più ottime AI non ha ancora padroneggiato la piena complessità del dialogo interattivo.
Un ricevimento misto
Non tutti sono elettrizzati da quanto sia umano questa AI.
Il giornalista tecnologico Mark Hachman ha descritto la sua esperienza con il modello vocale come “Profondamente inquietante.” Lo paragonò a parlare con un vecchio amico che non vedeva da anni, osservando che la voce dell’intelligenza artificiale aveva una misteriosa somiglianza con qualcuno che una volta aveva frequentato.
Altri hanno paragonato il modello di Sesame a Openai Modalità vocale avanzata Per Chatgpt, con alcuni che preferiscono il realismo e la volontà del sesamo di giocare a ruolo in più drammatici o addirittura arrabbiato Scenari: qualcosa di Openi Tendono ad evitare.
Una demo particolarmente sorprendente ha mostrato l’IA che litiga con un “boss” per uno scandalo dell’appropriazione indebita. La conversazione è stata così dinamica che gli ascoltatori hanno lottato per determinare quale oratore fosse l’essere umano e quale fosse l’IA.
I rischi di una voce perfetta
Come per tutte le scoperte di intelligenza artificiale, la sintesi vocale iperrealistica porta sia promesse che pericoli.
- Frode e truffe: Con le voci di intelligenza artificiale ora indistinguibili dal discorso umano, le truffe di phishing vocale potrebbero diventare lontano più convincente. I criminali potrebbero impersonare familiari, dirigenti aziendali o funzionari governativi con precisione quasi perfetta.
- Ingegneria sociale: A differenza dei robocall di base, l’inganno basato sull’intelligenza artificiale potrebbe adattarsi in tempo realerispondendo naturalmente a domande e sospetti.
- Impatto emotivo non intenzionale: Alcuni utenti hanno segnalato i propri figli che formano attaccamenti alle voci di intelligenza artificiale. Un genitore ha notato che il loro bambino di 4 anni ha pianto dopo essere stato negato ulteriori conversazioni con il modello.
Mentre il CSM di Sesame lo fa non Clone Real Voices, la possibilità di progetti open source simili rimane una preoccupazione. Openai ha già ritardato il rilascio più ampio della sua tecnologia vocale per i timori di uso improprio.
Qual è il prossimo?
Il sesamo AI prevede di open-source, componenti chiave della sua ricerca con la licenza Apache 2.0, consentendo agli sviluppatori di basarsi sul suo lavoro. La tabella di marcia dell’azienda include:
- Ridimensionamento della dimensione del modello per aumentare ulteriormente il realismo.
- Espandersi a oltre 20 lingueampliando la sua portata conversazionale.
- Sviluppare modelli “completamente duplex”abilitando le vere conversazioni con le interruzioni.
Per ora, la demo rimane disponibile da Sesame sito web—Ure la domanda ha già sopraffatto i loro server a volte. Che tu lo trovi sorprendente o inquietante, una cosa è chiara: i giorni delle voci di AI monotono robotiche sono finite.
Da qui in poi, potresti non essere mai abbastanza sicuro Chi – o cosa – stai parlando.
Credito immagine in primo piano: Kerem Gülen/Imagen 3