OpenAI ha unificato i team di ingegneria, prodotto e ricerca negli ultimi due mesi per rivedere i suoi modelli audio in preparazione di un primo dispositivo personale audio che verrà lanciato tra circa un anno, secondo quanto riferito da L'informazione. La revisione mira a migliorare le capacità audio di OpenAI oltre le limitazioni attuali. Il nuovo modello audio dell’azienda, previsto per il rilascio all’inizio del 2026, produrrà un parlato dal suono più naturale. Gestirà le interruzioni in modo simile a un vero interlocutore di conversazione. Questo modello consentirà inoltre all’intelligenza artificiale di parlare simultaneamente mentre l’utente parla, una funzione che i modelli esistenti non possono eseguire. OpenAI progetta una famiglia di dispositivi alimentati da questa tecnologia audio avanzata. I design possibili includono occhiali o altoparlanti intelligenti senza schermo. Questi dispositivi mirano a funzionare come compagni piuttosto che come semplici strumenti, integrandosi perfettamente nelle interazioni quotidiane.
L'ex capo del design Apple Jony Ive contribuisce alle iniziative hardware di OpenAI. OpenAI ha acquisito la sua azienda io per 6,5 miliardi di dollari a maggio. Ive dà priorità ai principi di progettazione audio-first per affrontare la dipendenza dai dispositivi. Come osserva The Information, Ive vede questo approccio come un'opportunità per “correggere i torti” dei gadget di consumo del passato. La spinta verso le interfacce audio è in linea con gli sviluppi più ampi del settore. Gli altoparlanti intelligenti, dotati di assistenti vocali, esistono in più di un terzo delle case degli Stati Uniti. Questi dispositivi hanno stabilito l'interazione vocale come elemento domestico standard. Meta ha introdotto una funzionalità per il suo Occhiali intelligenti Ray-Ban che utilizza un array di cinque microfoni. Questa configurazione aiuta gli utenti ad ascoltare le conversazioni in ambienti rumorosi. La tecnologia trasforma di fatto gli occhiali in un dispositivo di ascolto direzionale posizionato sul viso. Google ha avviato gli esperimenti a giugno con “Panoramica audio.” Questa funzionalità converte i risultati della ricerca in riepiloghi conversazionali forniti tramite audio. Gli utenti ricevono panoramiche vocali anziché elenchi visivi, facilitando l'accesso alle informazioni a mani libere. Tesla incorpora Grok e altri grandi modelli linguistici nei suoi veicoli. L'integrazione crea assistenti vocali conversazionali capaci di dialoghi naturali. Questi assistenti gestiscono attività come la navigazione e il controllo del clima attraverso comandi e risposte vocali. Le startup perseguono hardware simili incentrati sull’audio con risultati contrastanti. Il Spilla AI umanaun dispositivo indossabile senza schermo, ha consumato centinaia di milioni di finanziamenti prima di emergere come un ammonimento nel settore. Il ciondolo Friend AI funziona come una collana che registra aspetti della vita degli utenti fornendo allo stesso tempo compagnia. Questo dispositivo ha generato preoccupazioni sulla privacy insieme a segnalazioni di terrore esistenziale tra gli utenti. Altre startup sviluppano anelli AI il cui debutto è previsto per il 2026. Sandbar rappresenta uno sforzo. Un altro riguarda il fondatore di Pebble, Eric Migicovsky. Questi anelli consentono a chi lo indossa di conversare direttamente con il dispositivo in mano. I fattori di forma variano tra questi progetti (indossabili, pendenti, anelli), ma tutti enfatizzano l'audio come interfaccia principale. Spazi come case, automobili e persino il viso si evolvono in ambienti audio interattivi.





