Ti sei mai chiesto come puoi navigare abbastanza facilmente un nuovo quartiere o capire un progetto complesso a casa? Probabilmente lo gestisci senza sudare molto, trovare la tua strada o allineare i passaggi senza mappare ogni singola opzione. Ora, pensa all’intelligenza artificiale. Mentre l’intelligenza artificiale può schiacciare giochi specifici o numeri di crisi, costruire un’intelligenza artificiale che naviga nel mondo reale disordinato e parzialmente noto come noi è ancora una grande sfida. Perché siamo così bravi in questa complessa pianificazione, trovando spesso soluzioni che sembrano incredibilmente difficili per i computer? E perché i test di laboratorio a volte ci mostrano che adottano percorsi che non sono tecnicamente i “migliori” assoluti?
Questo puzzle è la chiave per comprendere l’intelligenza, sia la nostra che il tipo artificiale. L’intelligenza artificiale standard vede spesso la pianificazione come esplorare un gigantesco albero ramificato di scelte e risultati. Più grande è l’albero, più duro è il problema. Ma gli umani chiaramente non operano in questo modo. Non sembriamo portare in giro un progetto perfetto e dettagliato del mondo. Un team di ricercatori della Dalhousie University, Università di Waterloo, MIT e Cornell University ha un’idea alternativa affascinante. E se le nostre mappe mentali non sono come immagini statiche, ma più come programmi per computer flessibili?
Marta Kryven, Cole Wyeth, Aidan Curtis e Kevin Ellis suggeriscono che il nostro talento per la pianificazione proviene da una convinzione fondamentale: Il mondo di solito segue modelli prevedibili. Invece di memorizzare ogni ultimo dettaglio, forse costruiamo modelli mentali usando programmi compatti che catturano ripetizione, simmetria e blocchi riutilizzabili. Pensa a riconoscere il layout standard dei pavimenti in ufficio o il modo in cui le strade spesso formano griglie. Questo idea di “concetti come programmi” immagina il nostro cervello come costantemente alla ricerca del codice sottostante del mondo per navigare in modo efficiente. Ci immerciamo nel loro studio.
Perché i progetti e la forza bruta non sono all’altezza
Perché pensare alle mappe come programmi potenzialmente un punto di svolta? Guarda come la tipica AI gestisce la pianificazione, specialmente quando non ha tutte le informazioni. Questa situazione è spesso modellata come POMDP o processo decisionale di Markov parzialmente osservabile. Trovare la soluzione migliore di solito comporta il calcolo delle probabilità per ogni possibile scenario e la pianificazione in tutta quella incertezza. Questo approccio diventa rapidamente straordinariamente complesso, anche per ambienti abbastanza semplici. Semplicemente non sembra il modo liscio in cui gli umani si spostano.
Inoltre, c’è quella strana disconnessione. Gestiamo davvero bene la complessità strutturata della vita reale. Pensa alle griglie della città, ai mobili modulari, ai sentieri in un parco. Ma metti le persone in compiti di laboratorio semplificati progettati senza una struttura chiara e spesso non seguono il percorso matematicamente “ottimale”. I ricercatori erano soliti gettare questo ai limiti mentali, come pensare solo a pochi passi. Ma Kryven e i suoi colleghi pensano che potrebbe perdere il punto. Forse non siamo pianificatori difettosi. Forse siamo solo pianificatori incredibilmente bravi specifici per il tipo strutturato di mondo in cui viviamo davvero. Cerchiamo modelli e li usiamo.
I ricercatori di intelligenza artificiale hanno cercato di affrontare la complessità con strategie come la pianificazione gerarchica (rompere grandi problemi in piccoli) o riconoscere stati di gioco simili. Ma imparare e usare automaticamente il tipo di conoscenza strutturale di “buon senso” che abbiamo rimane un grande ostacolo.
Incontra GMP: pianificazione come un programmatore
Per mettere alla prova la loro idea, i ricercatori hanno creato un modello di computer chiamato Pianificazione modulare generativa o GMP. Questo modello funziona sul principio delle mappe cognitive come programmi. Non memorizza un’immagine esatta di un posto. Invece, capisce un semplice programma che cattura la sua struttura di base.
GMP ha due parti principali:
- Il generatore di mappe (GMM): Questa parte guarda una mappa, come un labirinto nel loro esperimento, e cerca di scrivere il programma più semplice che può ricostruirlo. Ecco una svolta davvero interessante. I ricercatori hanno utilizzato un modello linguistico di grandi dimensioni, GPT-4, per questo lavoro. Non per la pianificazione, ma per la scrittura di codice. Hanno spinto l’LLM a individuare i modelli visivi ripetuti nel labirinto. Quindi, l’LLM ha scritto il codice Python definendo questi blocchi e spiegando come combinarli (muoversi, ruotare, capovolgere) per ricreare la mappa. Il sistema preferisce semplici programmi che riutilizzano i blocchi in modo efficiente. Segue un principio a favore della spiegazione più compressa, essenzialmente cercando il codice più pulito che descrive la struttura della mappa.
- Il pianificatore modulare (FP): Una volta che il GMM crea una mappa del programma fatta di blocchi riutilizzabili, il modulo FP capisce come spostarsi. Invece di calcolare un percorso enorme e complesso per l’intera mappa, prevede una via efficiente all’interno di ogni tipo di blocco solo una volta. Quindi, ogni volta che si imbatte di nuovo in quello stesso tipo di pezzo, semplicemente tira fuori e riutilizza il piano già fatto. Questo consente di risparmiare una tonnellata di potenza e memoria di elaborazione. Per arrivare da una parte all’altra, si dirige verso il più vicino pezzo inesplorato, supponendo che i principianti (come l’uscita del labirinti) possa essere ovunque.
Questo modo di pianificare è intelligente all’interno di ciascun modulo. Trova il percorso migliore all’interno di quel pezzo riconosciuto. Ma collegare questi percorsi locali intelligenti potrebbe portare a un percorso globale leggermente più lungo che se un pianificatore guardasse perfettamente l’intera mappa. Questa possibilità di percorsi intelligenti, efficienti, ma forse leggermente indiretti era esattamente il tipo di comportamento simile all’uomo che i ricercatori stavano attenti.
Quindi, le persone pianificano effettivamente come il modello GMP? Il team ha utilizzato un’attività di ricerca del labirinto per scoprirlo. Trenta partecipanti hanno navigato 20 diversi labirinti su un computer, vedendo il mondo da una visione in prima persona. Parti del labirinto erano nascoste fino a quando non si avvicinano abbastanza. Il loro obiettivo: trova l’uscita nascosta, contrassegnata da una piastrella rossa.
Questi non erano solo labirinti. Sono stati progettati specificamente con strutture chiare e ripetute. Avevano layout modulari fatti di pezzi distinti, come determinate forme di stanza o sezioni del corridoio. Questa configurazione era perfetta per vedere se le persone esplorassero naturalmente il modulo per modulo o se prendevano scorciatoie tagliando i moduli se ciò sembrasse matematicamente più breve, come potrebbero prevedere i pianificatori ottimali tradizionali.
Il team ha confrontato i percorsi delle persone a tre diversi modelli:
- GMP: Il nuovo modello, scommettendo sulla ricerca modulare basata su tali mappe simili al programma.
- Utilità prevista: Il pianificatore “ottimale” standard, calcolando il percorso più breve assoluto data l’incertezza.
- Utilità scontata: Un modello che imita la pianificazione con un arco di attenzione limitato (guardando solo pochi passi), che aveva spiegato bene il comportamento umano non strutturato labirinta prima.
I labirinti sono stati progettati in modo che i modelli tradizionali di solito suggerivano percorsi non modulari, rendendo facile vedere quale strategia preferiva le persone.
Siamo pianificatori modulari
I risultati erano abbastanza chiari. Le persone hanno usato in modo schiacciante strategie modulari. Hanno esplorato il pezzo di labirinto strutturato da parte di un pezzo, spostandosi sistematicamente da una sezione riconosciuta a quella successiva più vicina. Questo non era solo un colpo di fortuna; Era il modello coerente attraverso diversi design del labirinto e la maggior parte dei partecipanti.
I ricercatori hanno esaminato attentamente “decisioni discriminanti”. Questi erano punti nel labirinto in cui il modello GMP suggeriva una mossa diversa rispetto ai modelli tradizionali. In questi momenti chiave, GMP ha fatto un lavoro significativamente migliore prevedendo ciò che le persone avrebbero effettivamente fatto. Le persone non erano solo casualmente inefficienti; erano sistematicamente modulare. Il loro comportamento si è schiantato magnificamente con la strategia che ti aspetteresti se stessero usando mappe mentali simili al programma.
Una delle parti davvero pulite di questo studio è il modo in cui hanno usato l’LLM. Non stava prendendo decisioni. Si comportava come un stand-in per l’uomo percezione strutturale. Poiché gli LLM sono addestrati sulle montagne della scrittura e del codice umani, sembrano assorbire i modi comuni in cui gli umani strutturano le cose, compresi gli spazi. Quando gli è stato chiesto di scrivere un programma per il labirinto, GPT-4 ha escogitato guasti strutturali, blocchi e regole, che corrispondevano al modo in cui le persone in seguito hanno navigato.
Ciò suggerisce che LLMS potrebbe essere utile per qualcosa di più della semplice generazione di testo. Potrebbero potenzialmente aiutarci a comprendere i presupposti e le scorciatoie mentali integrate, i “pregiudizi induttivi”, noi umani usiamo per dare un senso a tutto. Qui, ha contribuito a tradurre un labirinto visivo in una struttura utile, simile al codice, perfetta per una pianificazione efficiente.
Ricerca: una tabella periodica per l’apprendimento automatico
Cambiare il modo in cui pensiamo alle mappe mentali e all’IA
Questa ricerca sfida la vecchia idea delle mappe cognitive come immagini semplici e statiche nelle nostre teste. Pensarli come programmi attivi e generativi ha senso computazionale. Spiega come gestiamo il mondo reale complesso e incerto con forza cerebrale limitata. Spiega la nostra efficienza in luoghi strutturati e forse anche perché a volte prendiamo percorsi che non sono matematicamente perfetti ma sono molto più facili da capire e ricordare.
Per l’intelligenza artificiale, questo offre un percorso pratico in avanti. Il modello GMP mostra prima la potenza di trovare la struttura, quindi pianificazione modulare. Gli agenti di intelligenza artificiale costruiti in questo modo potrebbero potenzialmente navigare in ambienti complessi e parzialmente noti in modo molto più efficiente, che necessitano di memoria e potenza di elaborazione molto meno. Indica l’IA che pianifica più come noi, individuando i modelli invece di scricchiolare le possibilità.
Certo, ci sono ancora domande. L’attuale modello GMP fa semplici ipotesi sullo spostamento tra i blocchi. La ricerca futura deve esplorare come potremmo dare la priorità a determinate aree in base all’esperienza passata o agli obiettivi attuali. Come adattiamo i nostri programmi mentali quando il mondo non corrisponde alle nostre aspettative? Quanto influenzano i nostri obiettivi le strutture che percepiamo? Anche con queste domande aperte, questo studio ci offre un nuovo modo potente di pensare a come troviamo la nostra strada.
Alla fine, suggerisce qualcosa di profondo in noi. La nostra straordinaria capacità di navigare e agire in modo efficace nel nostro mondo complesso potrebbe scendere al nostro cervello che è esperto di ambienti di pattern, individuando costantemente il codice sottostante della realtà strutturata che ci circonda e rappresentandolo non solo come una scena, ma come un programma pronto a correre.