L’intelligenza artificiale ha lottato a lungo con un problema fondamentale: Come può un’IA esplorare il suo ambiente in modo intelligente senza istruzioni esplicite? Le apprendimento del rinforzo tradizionale (RL) si basa su Prova ed errorespesso sprecando grandi quantità di tempo che interagiscono in modo casuale con l’ambiente circostante. Mentre i modelli AI possono essere addestrati per risolvere compiti specifici in modo efficiente, Farli esplorare in modo significativo nuovi ambienti – senza obiettivi predefiniti – è stata una grande sfida.
Un recente studio Di Cansu Sanchaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev e Georg Martius presso l’Università di Tubinga, il Max Planck Institute, Tu Dresden e l’Università di Amsterdam introducono una soluzione promettente: Sensei (esplorazione semanticamente sensibile).
A differenza dei metodi precedenti che trattano l’esplorazione come Un problema di forza brutaSensei adotta un approccio diverso: uno che imita Come gli umani, in particolare i bambini, esplorano il mondo. Invece di provare solo cose nuove in modo casuale, gli umani cercano interazioni significative—Pornando i cassetti invece di bussare ai banchi, premendo i pulsanti invece di agitarsi le braccia. Sensei porta questo Curiosità simile all’uomo agli agenti artificiali usando Modelli di fondazione come Vision Language Models (VLMS) A Guida l’esplorazione con la comprensione semantica.
Il problema con l’esplorazione dell’IA
Per gli agenti di intelligenza artificiale per imparare nuovi compiti, devono prima esplorare il loro ambiente. I metodi di esplorazione tradizionali su cui si basano Motivazione intrinsecache significa che Ai viene data una ricompensa interna per le azioni che generano novità O massimizzare il guadagno delle informazioni. Tuttavia, questo approccio spesso porta a Comportamenti di basso livello e non strutturati—Se come un robot che si muove in modo casuale o ripetutamente toccando gli oggetti senza riconoscere la loro rilevanza.
Immagina un robot in una stanza piena di oggetti:
- Un agente RL standard Potrebbe provare ogni azione in modo casuale – colpire la scrivania, girare in cerchio o afferrare l’aria – senza dare la priorità a interazioni utili.
- Uno studente umanoal contrario, lo farebbe Concentrati naturalmente su oggetti come cassetti e pulsantiriconoscendoli come fonti di interazioni significative.
Questo è dove Sensei interviene.
AI ora gestisce le simulazioni molecolari: grazie a mdcrow
Come Sensei insegna all’IA ad esplorare come un essere umano
Sensei introduce a Nuovo tipo di motivazione intrinseca—Uno basato su comprensione semantica. Invece di esplorare ciecamente, l’IA è guidata da Ciò che un modello di fondazione (un’intelligenza artificiale su larga scala addestrato su grandi quantità di dati) ritiene “interessante”.
Il processo funziona in tre passaggi principali:
1. Insegnare ai cosa è “interessante”
Prima che l’agente inizi a esplorare, Sensei usa A Vision Language Model (VLM) come GPT-4V Per valutare le immagini dell’ambiente. Il VLM viene posta domande come:
“Quale di queste due immagini è più interessante?”
Da questi confronti, Sensei distilla a funzione di ricompensa semanticainsegnando all’IA Quali tipi di interazioni contano.
2. Apprendimento di un modello mondiale
Una volta che l’IA capisce ciò che è considerato “interessante”, esso Costruisce un modello mondiale interno—Uno sistema predittivo che lo aiuta a anticipare come l’ambiente risponderà alle sue azioni.
- Invece di aver bisogno interrogare costantemente il modello di fondazionel’IA Impara a prevedere l’interessidità da solo.
- Ciò riduce la dipendenza da modelli esterni e consente Esplorazione più veloce e autoguidata.
3. Esplorazione più intelligente, non più difficile
Con questa comprensione, l’IA è ora guidato da due motivazioni in competizione:
- Trova cose interessanti (massimizza la ricompensa semantica).
- Spingere i confini di ciò che sa (Aumenta l’incertezza esplorando nuove aree).
Il risultato? Agenti di ai Sblocca i comportamenti che sono sia nuovi che significativi, proprio come l’esplorazione guidata dalla curiosità umana.
Cosa può fare Sensei: AI che sblocca le interazioni del mondo reale
I ricercatori hanno testato il sensei in Due ambienti diversi:
1. Simulazioni di videogiochi (minihack)
- In un gioco in cui un’IA doveva Trova una chiave per aprire una porta chiusa a chiaveSensei interazioni prioritarie con la chiave e la porta—Prediamo solo un essere umano.
- I metodi di esplorazione dell’intelligenza artificiale tradizionali sono rimasti spesso bloccati facendo movimenti casuali senza comprendere il Significato degli oggetti nella scena.
- Sensei ha risolto i puzzle del gioco più veloce e con meno azioni sprecate di altri metodi AI.
2. Simulazioni robotiche (Robodesk)
- In a Ambiente del braccio roboticoSensei focalizzato sulla manipolazione di oggetti come cassetti e pulsantiimparare compiti significativi in modo naturale.
- Nemmeno i sistemi di intelligenza artificiale in competizione flagellare in modo casuale O Sono rimasto bloccato a ripetere le azioni senza vero scopo.
In entrambi i casi, Sensei non solo coprire più terreno-Esso focalizzato sulle interazioni che contavanoportando a Apprendimento più ricco ed efficiente.
Perché questo è importante: il futuro dell’esplorazione dell’IA
La capacità di Sensei di dare priorità alle interazioni significative potrebbe rivoluzionare la robotica, permettendo ai robot di farlo comportamenti utili per auto-apprendimento senza programmazione esplicita. Immaginare:
- Un assistente di casa che capita come usare nuovi elettrodomestici senza istruzioni passo-passo.
- Robot industriali quello adattarsi a nuovi compiti in fabbriche senza intervento umano.
Concentrandosi su Esplorazione semanticamente rilevanteAi può ridurre il calcolo sprecatoportando a Apprendimento più rapido e più efficiente dal punto di vista energetico.
Una delle maggiori sfide dell’IA è la creazione di sistemi che Impara in modo flessibile come gli umani. Sensei rappresenta un passo verso agenti di intelligenza artificiale in grado di esplorare nuovi ambienti in modo intelligente—Sidendo basare Dati di formazione artigianali o obiettivi predefiniti.
Limitazioni
Mentre Sensei è un grande salto in avantiha ancora alcune limitazioni:
- Si basa su input visivi di alta qualità. Se la fotocamera dell’intelligenza artificiale è bloccata o distorta, la sua comprensione può essere influenzata.
- Non è ancora multimodale. Mentre funziona bene con le immagini, le versioni future potrebbero incorporare suono, testo e altri input sensoriali per l’esplorazione più ricca.
- Presume che la curiosità generale simile all’uomo sia sempre benefica. In alcune applicazioni specializzate, alcune interazioni potrebbero non essere utili.
Credito immagine in primo piano: Kerem Gülen/Midjourney