Una recente ricerca di Apple suggerisce che i modelli che hanno ottenuto un punteggio elevato nel set di dati GSM8K potrebbero non essere così intelligenti come sembrano.
I Large Language Models (LLM) sono stati ampiamente elogiati per le loro capacità di ragionamento apparentemente impressionanti. I modelli di aziende come OpenAI, Google e Meta sono spesso presentati come potenti strumenti in grado di risolvere problemi complessi, con test come il set di dati GSM8K che rappresentano un punto di riferimento popolare per misurare le loro capacità di ragionamento.
Tuttavia, la ricerca di Apple è destinata a cambiare il cosiddetto sistema affidabile.
Cos’è il set di dati GSM8K?
Il set di dati GSM8K (Grade School Math 8K) è un benchmark utilizzato per valutare le capacità di problem solving e di ragionamento dei Large Language Models (LLM). Consiste in oltre 8.000 problemi di parole matematiche di livello scolastico, che in genere richiedono abilità aritmetiche, ragionamento logico e capacità di risoluzione dei problemi in più fasi per arrivare alla risposta corretta.
Il set di dati GSM8K è composto da:
- Matematica a livello di scuola elementare: i problemi sono progettati per imitare il tipo di domande che uno studente delle classi 1-8 potrebbe incontrare, come aritmetica di base, geometria, algebra e puzzle logici.
- Problemi di parole: Ogni domanda è presentata sotto forma di problema verbale e richiede al modello di interpretare il problema, identificare i numeri e le operazioni rilevanti e risolvere l’equazione.
- Utilizzato per la valutazione LLM: il set di dati viene spesso utilizzato come test per vedere quanto bene i modelli linguistici come GPT di OpenAI, i modelli di Google o LLaMA di Meta possono gestire attività di ragionamento oltre la semplice previsione del testo.
- Ragionamento in più fasi: i problemi richiedono più passaggi per essere risolti, testando la capacità del modello di tracciare sequenze complesse di ragionamento, piuttosto che produrre semplicemente una risposta in un unico passaggio.
Il set di dati GSM8K è diventato uno strumento popolare per valutare se gli LLM possono ragionare in modo logico e risolvere problemi del mondo reale. Tuttavia, si teme che molti modelli di intelligenza artificiale funzionino bene su questo set di dati attraverso la corrispondenza dei modelli piuttosto che con il vero ragionamento, poiché potrebbero essere stati esposti a problemi simili durante l’addestramento.
Limitazioni del set di dati GSM8K degli LLM
I ricercatori Apple sostengono che questo successo potrebbe dipendere più da una sofisticata corrispondenza di modelli che da un autentico ragionamento logico. Poiché il set di dati GSM8K è così comunemente utilizzato, esiste il rischio di contaminazione dei dati, il che significa che molti LLM potrebbero aver già riscontrato questi problemi durante la formazione, gonfiando la loro apparente intelligenza.
Per risolvere questo problema, Apple ha sviluppato un nuovo benchmark chiamato GSM-Simbolico. Questo test conserva gli elementi fondamentali del ragionamento del set di dati GSM8K ma introduce modifiche come nomi, numeri e complessità diversi, insieme a informazioni irrilevanti.
I risultati? Ogni LLM testato, inclusi modelli come OpenAI GPT-4 e quello di Meta Lama 3ha riscontrato un calo significativo delle prestazioni di fronte a questa nuova sfida. Ciò lo suggerisce Gli LLM hanno difficoltà con il vero ragionamento quando le variabili vengono alteratemettendo ulteriormente in discussione le loro effettive capacità di problem solving.
Perché i LLM hanno difficoltà?
Lo studio di Apple fa luce su un difetto critico negli LLM: Sono eccellenti nel rilevare modelli nei dati di addestramento ma mancano di un vero ragionamento logico. Ad esempio, quando i problemi di matematica includevano dettagli irrilevanti, come la dimensione dei kiwi in uno scenario di raccolta della frutta, molti LLM sottraevano quel dettaglio irrilevante dall’equazione, dimostrando l’incapacità di discernere quali informazioni fossero necessarie per risolvere il problema.
Nei test con il Set di dati GSM8Kgli LLM come i modelli di OpenAI hanno ottenuto risultati migliori rispetto alle loro controparti open source, ma il calo di precisione quando sono state aggiunte informazioni irrilevanti suggerisce che questi sistemi sono lontani dal raggiungere una vera intelligenza. Ciò ha profonde implicazioni per lo sviluppo futuro dell’intelligenza artificiale, dimostrando che sebbene gli LLM possano imitare l’intelligenza, hanno ancora difficoltà a comprendere veramente il contesto.
IA più intelligente o semplicemente più bravo a sembrare intelligente?
La ricerca di Apple sottolinea i limiti dell’affidarsi a benchmark come il set di dati GSM8K per valutare l’intelligenza artificiale. Sebbene questi test possano misurare il riconoscimento di schemi, non sempre catturano le sfumature del vero ragionamento logico. L’introduzione del benchmark GSM-Symbolic fornisce un test più rigoroso della capacità di un’intelligenza artificiale di gestire variabili non familiari e informazioni irrilevanti, competenze essenziali per la risoluzione dei problemi nel mondo reale.
Sam Altman, CEO di OpenAI, ha persino riconosciuto queste sfide, riferendosi agli attuali LLM come “incredibilmente stupido” nonostante il loro impressionante aspetto esteriore in un’intervista esclusiva con Revisione della tecnologia del MIT. Il vero test per i futuri LLM sarà la loro capacità di andare oltre il riconoscimento dei modelli e sviluppare capacità di risoluzione dei problemi più solide.
I risultati dello studio di Apple offrono una prospettiva che fa riflettere sullo stato attuale dei LLM. Mentre i modelli addestrati su set di dati come GSM8K possono funzionare bene in ambienti controllati, le loro capacità di ragionamento vacillano quando vengono messe alla prova su problemi più complessi del mondo reale. Ciò evidenzia l’importanza di ulteriori attività di ricerca e sviluppo per garantire che i modelli di intelligenza artificiale vadano oltre l’intelligenza a livello superficiale e sviluppino vere capacità di ragionamento logico.
Per oraè fondamentale temperare l’entusiasmo che circonda l’intelligenza artificiale con un sano scetticismo, concentrandosi su sistemi di intelligenza artificiale più sicuri e intelligenti in grado di gestire qualcosa di più del semplice riconoscimento di schemi.
Crediti immagine: DC Studio/Freepik