Stai partecipando all’ennesima riunione infinita di Zoom o Teams. Voci che continuano a ronzare, diapositive che attirano a malapena la tua attenzione e i tuoi occhi vitrei mentre qualcuno snocciola statistiche trimestrali. Ora, immagina se, invece di annoiarti con i fogli di calcolo, l’intelligenza artificiale durante la riunione iniziasse a creare immagini sul momento: immagini reali che danno vita alla conversazione, generate in tempo reale mentre le persone parlano. Sembra futuristico, ma è esattamente ciò che Microsoft sta escogitando con un nuovo brevetto.
Microsoft brevetta la voce all’immagine
L’ultima idea di Microsoft (e sì, è ancora solo un’idea per ora) è quella di prendere flussi audio dal vivo (lezioni, riunioni, qualsiasi conversazione verbale) e trasformarli in immagini, al volo. Solo l’Ufficio brevetti e marchi degli Stati Uniti ha rilasciato i dettagli il 10 ottobre 2024dopo che Microsoft lo ha presentato in aprile. Il sistema essenzialmente ascolterebbe le tue chiamate, genererebbe una trascrizione del testo, la alimenterebbe attraverso un modello di intelligenza artificiale e mostrerebbe immagini che corrispondono a ciò che viene detto.
Non più “fammi alzare una diapositiva per quello”.

La fine delle riunioni noiose? Forse no, ma ci avvicineremo
La maggior parte delle riunioni virtuali sono piuttosto noiose. E non facciamo finta di non trascorrere una buona parte del nostro tempo isolandoci.
Ma cosa succederebbe se quelle riunioni iniziassero improvvisamente a mostrare immagini alla stessa velocità con cui la conversazione si muove? Qualcuno menziona nuovi concetti di prodotto e in pochi secondi le immagini generate dall’intelligenza artificiale iniziano a comparire sullo schermo. I numeri aridi che le persone citano si trasformano improvvisamente in grafici dinamici senza che nessuno faccia clic su un pulsante. Che cos’è? Un collo di bottiglia nella catena di approvvigionamento nel sud-est asiatico? Bam! Viene visualizzata una mappa interattiva che evidenzia le aree interessate.
Ora, prima che tu ti ecciti troppo, sia chiaro: questo è ancora in fase di brevetto. E se sei in giro da abbastanza tempo, sai che molti brevetti non portano da nessuna parte. Depositare un brevetto è come piantare un seme: potrebbe trasformarsi in qualcosa di eccezionale o rimanere semplicemente un’idea che non verrà mai sviluppata.
Detto questo, se Microsoft lo fa, la casa ovvia per questa tecnologia è Microsoft Teams. Hanno potenziato Teams con tutti i tipi di strumenti basati sull’intelligenza artificiale, da Copilot a funzionalità di videoconferenza avanzate, quindi questo sarebbe un passo da compiere.
Abbiamo già visto strumenti di conversione del testo in immagine come DALL-E E A metà viaggio far impazzire le persone. Ora, potremmo vedere quel concetto applicato al discorso dal vivo. È come dare voce alla creatività dell’intelligenza artificiale in tempo reale.
Ma per ora aspettiamo.
Credito immagine in primo piano: Kerem Gülen/Metà viaggio