La recente svolta di Google DeepMind con SIMA (Self-Instructing Multimodal Agent) mette in luce i rapidi progressi nel rendere realtà gli agenti IA generalisti, progettati specificamente per ambienti virtuali 3D.
Questo progresso comporta un potenziale di trasformazione, non solo per l’industria dei giochi, ma per il modo in cui interagiamo con gli spazi virtuali in un ampio spettro di applicazioni.
Con capacità migliorate di comprensione delle istruzioni, adattamento a nuovi compiti e ragionamento entro i limiti dei mondi virtuali, gli agenti simili a SIMA offrono il potenziale per rimodellare diverse aree chiave.
L’enorme successo del SIMA
L’ultima innovazione di DeepMind è SIMA, che sta per Scalable Instructable Multiworld Agent. A differenza della precedente IA focalizzata sulla padronanza di un singolo gioco, SIMA è un’IA generalista.
SIMA non si limita ai pixel sullo schermo. Può elaborare sia informazioni visive (ciò che vede nel gioco) e istruzioni in linguaggio naturale (ciò che un essere umano gli dice di fare). Questo apprendimento multimodale consente una comprensione più sfumata del mondo di gioco.
La SIMA non si allena su una sola partita. DeepMind ha collaborato con diversi sviluppatori di giochi, esponendo SIMA a una varietà di titoli come No Man’s Sky e Teardown. Questa diversità rafforza la sua capacità di adattarsi a nuovi ambienti.
SIMA non ha bisogno di essere imbottita con il cucchiaino per ogni regola. Seguendo le istruzioni, può apprendere nuove abilità all’interno di un gioco, come navigare in una nuova area, creare un oggetto o utilizzare i menu di gioco. Ciò lo rende molto più versatile rispetto ai tradizionali agenti IA.
Non lasciarti ingannare dalla mancanza di concentrazione sul raggiungimento dei punteggi più alti. Anche se impressionante, non è questo l’obiettivo principale.
Il vero successo di SIMA risiede nella sua capacità di comprendere e agire in base alle istruzioni umane all’interno di un ambiente di gioco. Questa ricerca significa a È stato fatto un enorme passo avanti per creare un’intelligenza artificiale che possa esserci utile nel mondo reale.
Alcuni dei giochi in cui Google DeepMind esegue questo rivoluzionario modello di intelligenza artificiale sono:
- Simulatore di capra 3
- Hydroneer
- Il cielo di nessuno
- Soddisfacente
- Demolire
- Valheim
- Vita traballante
Oltre a tutti questi giochi, il team di Google DeepMind ha anche testato le capacità di SIMA in simulazioni realistiche da loro create chiamate: “Ambienti di ricerca“. Questi ambienti, costituiti da Construction Lab, Playhouse, ProcTHOR e WorldLab, simulano molte aree in cui si ritiene che l’intelligenza artificiale verrà integrata nel prossimo futuro.
La magia dietro SIMA
Elaborazione dell’input multimodale
SIMA utilizza modelli linguistici di grandi dimensioni (LLM), probabilmente basato sull’architettura Transformer, per elaborare e comprendere le istruzioni in linguaggio naturale fornite da un utente. Gli LLM eccellono nella gestione di dati sequenziali come il testo, rendendoli adatti a questo compito. Per dare un senso a ciò che lo circonda, SIMA si avvale reti neurali convoluzionali (CNN) per elaborare l’input visivo dall’ambiente 3D.
Le CNN sono eccezionalmente brave nell’estrarre caratteristiche e modelli spaziali da immagini o flussi video. SIMA probabilmente utilizza più CNN per creare diversi livelli di rappresentazione all’interno dell’input visivo per una comprensione completa.
Autoistruzione
Una delle innovazioni chiave alla base del SIMA è la sua capacità di scomporre istruzioni complesse in una sequenza di sottoattività più semplici. Ciò è probabilmente ottenuto attraverso una combinazione di elaborazione del linguaggio naturale (per analizzare le istruzioni) e apprendimento per rinforzo gerarchico (RL).
RL gerarchico consente agli agenti di apprendere comportamenti complessi basandosi su sequenze di azioni di livello inferiore.
Inoltre, SIMA può generare i propri dati e obiettivi di allenamento osservando le proprie azioni nell’ambiente e i cambiamenti risultanti. Questa tecnica di autosupervisione è fondamentale per consentire l’apprendimento continuo e l’adattamento in nuovi ambienti, conferendogli flessibilità.

Generalizzazione a colpo zero
L’impressionante capacità del SIMA di eseguire nuovi compiti senza una formazione esplicita probabilmente deriva da un’ampia formazione preliminare su un enorme set di dati di diversi ambienti 3D e istruzioni associate. Questa formazione preliminare consente al modello di costruire una ricca rappresentazione interna di mondi virtuali e istruzioni comuni, consentendogli di generalizzare la conoscenza.
È probabile che durante la pre-formazione venga utilizzato un approccio di meta-apprendimento, incoraggiando la SIMA a sviluppare una strategia per “imparare ad imparare“.
Ciò consente all’agente di acquisire rapidamente nuove competenze all’interno di ambienti invisibili.
Potresti saperne di più sul lavoro di Google DeepMind sulla formazione degli agenti generalisti dell’IA utilizzando i giochi del loro documento di ricerca.
Impara dai giochi per brillare nel mondo reale
Che tu ci creda o no, SIMA segna a punto di svolta nello sviluppo dell’intelligenza artificiale.
I videogiochi offrono il terreno di allenamento ideale per l’intelligenza artificiale perché sono mondi dinamici e autonomi con obiettivi, regole e meccanismi di feedback chiari.
All’interno di questi spazi virtuali, gli agenti IA possono sperimentare, fare errorie imparare dai loro successi e fallimenti, il tutto senza il rischi o limitazioni del mondo reale. Man mano che SIMA esplora mondi di gioco sempre più intricati e i suoi modelli sottostanti diventano più potenti, sviluppa la capacità di adattarsi, comprendere le istruzioni e elaborare strategie per raggiungere gli obiettivi.
Queste abilità, affinate nella sandbox sicura di un gioco, si traducono in un’intelligenza artificiale versatile e capace in grado di navigare potenzialmente nelle complessità del nostro mondo reale.
Questo è solo l’inizio di ciò che è possibile fare quando l’IA impara attraverso il gioco.
In realtà, il potenziale dell’intelligenza artificiale per affrontare le sfide del mondo reale diventa chiaro quando noi esaminare le istruzioni utilizzate da Google DeepMind in vari giochi.

Per fare alcuni esempi:
IL “Raccogli il minerale di ferro“, chiede di intervenire Soddisfacente suggerisce il potenziale dell’intelligenza artificiale per migliorare la sicurezza in settori pericolosi come quello minerario. Lo riferisce il Bureau of Labor Statistics un preoccupante aumento degli infortuni mortali in miniera, con a Aumento del 21,8% dal 2020 al 2021. Immaginate le vite che potrebbero essere salvate se i robot dotati di intelligenza artificiale, meno inclini all’errore umano o alla fatica, dovessero gestire pericolose attività minerarie.
Nel gioco della sopravvivenza ValheimIL “Trova l’acqua” evidenzia il potere dell’intelligenza artificiale nell’affrontare questioni vitali come la scarsità d’acqua. Lo riferisce la Banca Mondiale Quello circa 226 milioni di persone nell’Africa orientale e meridionale non hanno accesso ai servizi idrici di basee 381 milioni di persone non hanno accesso ai servizi igienico-sanitari di base.
Un altro robot in grado di condurre ricerche sull’acqua naturale della regione senza alcuna interruzione può toccare la vita di miliardi di persone.
Anche se oggigiorno l’intelligenza artificiale sembra identificarsi con la generazione di immagini e gli incessanti chatbot, credeteci, E ‘molto più di questo, e studi come questi hanno un potenziale immenso per a futuro migliore per tutti.
Credito immagine in primo piano: Freepik.