Sentiamo costantemente le incredibili imprese di AI come GPT-4o e Gemini-Codice di scrittura, Crafting Poetry, Acing Exams. Potresti pensare che questi potenti modelli di linguaggio di grandi dimensioni multimodali (MLLM), che comprendono sia il testo che le immagini, sono sulla buona strada per padroneggiare tutto. Ma cosa succede quando chiedi loro di fare qualcosa di apparentemente semplice, come seguire le istruzioni Lego?
Secondo un nuovo studio Dai ricercatori della Shanghai AI Laboratory e dell’Università Tongji, la risposta è: in gran parte falliscono. Questi maghi di intelligenza artificiale, a quanto pare, sono sorprendentemente goffi quando si tratta di capire e ragionare sugli oggetti nello spazio su più passaggi – un’abilità cruciale per interagire con il mondo reale.
Perché testare l’IA con Legos?
I ricercatori hanno progettato un punto di riferimento intelligente chiamato Lego-puzzle Proprio perché la costruzione di Legos rispecchia il modo in cui gli umani sviluppano “intelligenza spaziale”. Seguire quei piccoli diagrammi richiede la comprensione delle forme 3D, il modo in cui si adattano, il loro orientamento e la corretta sequenza di azioni. Se un’intelligenza artificiale non può gestirlo, come possiamo aspettarci che guidi un braccio robot che assembla un prodotto o naviga in un’auto a guida autonoma attraverso una complessa zona di costruzione?
Il benchmark Lego-puzzle non è il gioco per bambini. Include oltre 1.100 domande visive che abbracciano 11 compiti diversi. Questi vanno dai controlli di base (“Questo pezzo è più alto di quello?”, “Questi due blocchi sono toccanti?”) A sequenze complesse (“Metti questi passaggi di assemblaggio nell’ordine giusto”, “Quale immagine mostra l’immagine sbagliato fare un passo?”).
La sorprendente scorecard: AI vs Humans
Quindi, come hanno fatto i migliori modelli di intelligenza artificiale di oggi su queste sfide LEGO? I risultati sono stati sorprendenti e, francamente, un po ‘imbarazzanti per l’IA.
- Gap massiccio: Anche i migliori modelli, come GPT-4o di Openi e Gemini-2.0-Flash di Google, hanno risposto 50-58% delle domande correttamente.
- Triumfo umano: I partecipanti umani, al contrario, sono stati breccia attraverso i puzzle con Oltre il 90% precisione.
- Lotte open source: Molti MLLM open source si sono esibiti solo leggermente meglio delle ipotesi casuali. Alcuni compiti specifici completamente falliti, come ordinare le fasi dell’assemblaggio, a volte superano la stessa lettera sbagliata per quasi tutte le domande.
L’IA in particolare ha lottato con compiti che coinvolgono:
- Percezione dell’altezza: Spesso confondere una proiezione di immagine 2D con la realtà 3D (pensa allusioni ottiche).
- Rotazione: Capire come gli oggetti si occupano di essere stati girati.
- Ragionamento in più fasi: Più passaggi coinvolti in una sequenza, peggiore l’IA eseguita, evidenziando l’incapacità di tenere traccia delle modifiche nel tempo.
Il kaist ha coltivato cervelli per l’IA che può imparare subito i dispositivi
Può anche mostrarci il prossimo passo?
Forse ancora più significativo è stato il test di generazione di immagini. I ricercatori hanno chiesto a MLLMS di generare un’immagine che mostra il risultato di una specifica fase di assemblaggio LEGO.
Il risultato? Un fallimento quasi totale. La maggior parte dei modelli ha ignorato le istruzioni, ha semplicemente copiato l’immagine di input o ha generato qualcosa di completamente non correlato. Solo Gemini-2.0-Flash e GPT-4O hanno mostrato una “capacità limitata”: Gemini era più bravo a modificare accuratamente l’immagine esistente, mentre GPT-4O sembrava rigenerare concettualmente la scena, perdendo spesso la coerenza visiva. I modelli open-source erano persi irrimediabilmente.
Questa ricerca espone una debolezza critica nello sviluppo dell’attuale AI. Mentre i modelli eccellono nella corrispondenza del modello in linguaggio e immagini statiche, mancano di una solida comprensione di ragionamento spaziale in più fasi – La comprensione dinamica di come funzionano le cose nello spazio fisico e nel tempo.
Lo studio ha scoperto che anche le tecniche di spunta come “catena di pensiero” (chiedendo all’IA di “pensare passo dopo passo”), che spesso aiutano con i problemi di testo, hanno fornito un beneficio minimo e talvolta anche ostacolato prestazioni su questi compiti spaziali, in particolare quelli complessi.
Sembra che comprendere veramente il nostro mondo 3D e il modo in cui le azioni si svolgono al suo interno richiedono più che elaborare enormi quantità di testo e immagini. Gli MLLM hanno bisogno di modi migliori per rappresentare lo spazio, tenere traccia dei cambiamenti in sequenza e forse sviluppare una forma di “memoria visiva”.
Credito immagine in primo piano: Kerem Gülen/Imagen 3