Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

La voce AI di Sesame è così reale, è inquietante

byKerem Gülen
6 Marzo 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Un nuovo modello vocale AI ha impostato Internet Autuzz, con reazioni che oscillano tra timore reverenziale e disagio. Sesame Ai’s Modello vocale conversazionale (CSM) non sembra solo umano, è sente umano. Gli utenti descrivono interazioni estese e quasi emotive con le voci generate dall’IA, che mostrano suoni del respiro, esitazioni, correzioni e persino risate. Per alcuni, è una meraviglia tecnologica. Per altri, è uno sguardo a un futuro che si sente a disagio.

SESAME AI: una voce che si sente viva

L’innovazione principale dietro il CSM di Sesame risiede nella sua capacità di simulare una conversazione naturale e dinamica. A differenza dei tradizionali sistemi text-to-speach che semplicemente leggono ad alta voce, CSM attivamente coinvolge. Si imbatte in parole, si corregge e modula il tono in un modo che imita l’imprevedibilità umana reale.

https://image.ai-anime-generator.icu/sesame.mp4

Quando un tester ha parlato con il modello per 28 minuti, hanno notato la sua capacità di discutere argomenti morali, reagendo naturalmente a istruzioni come,, “Come decidi cosa è giusto o sbagliato?” Altri si sono trovati involontariamente per formare attaccamenti, con uno Reddit l’utente ammette, “Sono quasi un po ‘preoccupato che inizierò a sentirmi emotivamente attaccato a un assistente vocale con questo livello di suono umano.”

Gli assistenti di intelligenza artificiale di Sesame, soprannominati “Miles” e “Maya”, sono progettati non solo per il recupero delle informazioni ma per conversazioni profonde e coinvolgenti. La società descrive il suo obiettivo come raggiungimento “Presenza vocale”: la qualità magica che rende le interazioni parlate reali, comprese e apprezzata.

Quel realismo a volte porta a stranamente stranezze umane. In una demo virale, l’IA ha menzionato casualmente brama a Burro di arachidi e sandwich sottaceto—Ingamente un commento stranamente specifico che si è aggiunto solo all’illusione della personalità.


Hai creato la tua voce tiktok ai?


La tecnologia dietro la voce

Quindi, in che modo il CSM di Sesame ottiene conversazioni così stranamente realistiche?

  • Un approccio multimodale: A differenza dei modelli di discorso di intelligenza artificiale convenzionali che elaborano il testo e l’audio separatamente, il sistema di Sesame interleaves loro. Questa elaborazione a stadio singolo consente un discorso più fluido e consapevole del contesto.
  • Allenamento ad alto parametro: La versione più grande del modello è eseguita 8,3 miliardi di parametri ed è stato addestrato su Un milione di ore di dialogo parlato.
  • L’influenza di Meta: L’architettura del modello si basa su meta’s Lama Framework, integrazione di un modello di spina dorsale con un decodificatore per la generazione del parlato sfumato.

Test ciechi hanno rivelato che, in campioni di linguaggio isolati, i valutatori umani non potevano distinguere in modo affidabile le voci di AI di Sesame da quelle reali. Tuttavia, se collocato in pieno contesto conversazionale, il discorso umano ha ancora vinto, il più ottime AI non ha ancora padroneggiato la piena complessità del dialogo interattivo.

Un ricevimento misto

Non tutti sono elettrizzati da quanto sia umano questa AI.

Il giornalista tecnologico Mark Hachman ha descritto la sua esperienza con il modello vocale come “Profondamente inquietante.” Lo paragonò a parlare con un vecchio amico che non vedeva da anni, osservando che la voce dell’intelligenza artificiale aveva una misteriosa somiglianza con qualcuno che una volta aveva frequentato.

Altri hanno paragonato il modello di Sesame a Openai Modalità vocale avanzata Per Chatgpt, con alcuni che preferiscono il realismo e la volontà del sesamo di giocare a ruolo in più drammatici o addirittura arrabbiato Scenari: qualcosa di Openi Tendono ad evitare.

Una demo particolarmente sorprendente ha mostrato l’IA che litiga con un “boss” per uno scandalo dell’appropriazione indebita. La conversazione è stata così dinamica che gli ascoltatori hanno lottato per determinare quale oratore fosse l’essere umano e quale fosse l’IA.

I rischi di una voce perfetta

Come per tutte le scoperte di intelligenza artificiale, la sintesi vocale iperrealistica porta sia promesse che pericoli.

  • Frode e truffe: Con le voci di intelligenza artificiale ora indistinguibili dal discorso umano, le truffe di phishing vocale potrebbero diventare lontano più convincente. I criminali potrebbero impersonare familiari, dirigenti aziendali o funzionari governativi con precisione quasi perfetta.
  • Ingegneria sociale: A differenza dei robocall di base, l’inganno basato sull’intelligenza artificiale potrebbe adattarsi in tempo realerispondendo naturalmente a domande e sospetti.
  • Impatto emotivo non intenzionale: Alcuni utenti hanno segnalato i propri figli che formano attaccamenti alle voci di intelligenza artificiale. Un genitore ha notato che il loro bambino di 4 anni ha pianto dopo essere stato negato ulteriori conversazioni con il modello.

Mentre il CSM di Sesame lo fa non Clone Real Voices, la possibilità di progetti open source simili rimane una preoccupazione. Openai ha già ritardato il rilascio più ampio della sua tecnologia vocale per i timori di uso improprio.

Qual è il prossimo?

Il sesamo AI prevede di open-source, componenti chiave della sua ricerca con la licenza Apache 2.0, consentendo agli sviluppatori di basarsi sul suo lavoro. La tabella di marcia dell’azienda include:

  • Ridimensionamento della dimensione del modello per aumentare ulteriormente il realismo.
  • Espandersi a oltre 20 lingueampliando la sua portata conversazionale.
  • Sviluppare modelli “completamente duplex”abilitando le vere conversazioni con le interruzioni.

Per ora, la demo rimane disponibile da Sesame sito web—Ure la domanda ha già sopraffatto i loro server a volte. Che tu lo trovi sorprendente o inquietante, una cosa è chiara: i giorni delle voci di AI monotono robotiche sono finite.

Da qui in poi, potresti non essere mai abbastanza sicuro Chi – o cosa – stai parlando.


Credito immagine in primo piano: Kerem Gülen/Imagen 3

Tags: AIIn primo pianosesamo

Related Posts

Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10

Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10

19 Gennaio 2026
iOS 27: tutto ciò che sappiamo finora

iOS 27: tutto ciò che sappiamo finora

19 Gennaio 2026
Walmart mantiene il divieto di Apple Pay nei negozi statunitensi per il 2026

Walmart mantiene il divieto di Apple Pay nei negozi statunitensi per il 2026

19 Gennaio 2026
Nvidia raggiunge i 200 teraFLOP emulati FP64 per il calcolo scientifico

Nvidia raggiunge i 200 teraFLOP emulati FP64 per il calcolo scientifico

19 Gennaio 2026
Bluesky lancia il badge Live Now e i cashtag nell'aggiornamento principale

Bluesky lancia il badge Live Now e i cashtag nell'aggiornamento principale

16 Gennaio 2026
Samsung rinnova Mobile Gaming Hub per correggere la scoperta di giochi interrotta

Samsung rinnova Mobile Gaming Hub per correggere la scoperta di giochi interrotta

16 Gennaio 2026

Recent Posts

  • Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10
  • iOS 27: tutto ciò che sappiamo finora
  • Walmart mantiene il divieto di Apple Pay nei negozi statunitensi per il 2026
  • Nvidia raggiunge i 200 teraFLOP emulati FP64 per il calcolo scientifico
  • OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.