Secondo uno studio recente, i grandi modelli linguistici hanno avuto difficoltà con la moltiplicazione a più cifre senza metodi di formazione specializzati, nonostante la loro capacità di gestire compiti complessi di codifica e ragionamento. Ricerca pubblicata su arXiv Il server di prestampa di Xiaoyan Bai e Chenhao Tan dell’Università di Chicago, insieme a collaboratori del MIT, dell’Università di Harvard, dell’Università di Waterloo e di Google DeepMind, ha identificato le ragioni di questa limitazione e ha trovato soluzioni. I modelli standard di linguaggi di grandi dimensioni hanno raggiunto una precisione inferiore all’1% quando si moltiplicano due numeri a quattro cifre, anche con livelli aumentati fino a 12. Questi modelli convergono su un “ottimo locale”, non riuscendo a memorizzare e recuperare i calcoli intermedi necessari per la moltiplicazione a più cifre, che sono classificati come dipendenze a lungo raggio. Al contrario, un modello addestrato con il metodo della catena di pensiero implicita (ICoT) ha raggiunto una precisione del 100%. Il modello ICoT ha dimostrato la capacità di tracciare le dipendenze a lungo raggio e di internalizzare i processi di ragionamento rimuovendo gradualmente le fasi di ragionamento intermedie durante la formazione. Il team di ricerca ha decodificato i valori intermedi, come le somme parziali, dagli stati interni del modello ICoT, cosa che non era possibile con il modello di regolazione fine standard. Il modello ICoT ha organizzato la sua attenzione in percorsi distinti, calcolando i prodotti delle coppie di cifre nei primi strati e memorizzandoli in posizioni specifiche per il recupero negli strati successivi. Ciò ha creato una struttura interna efficiente per la moltiplicazione. Lo studio ha inoltre scoperto che il modello ICoT rappresentava le operazioni utilizzando strutture eleganti, codificando le cifre come modelli ondulati (basi di Fourier) e organizzando l’aritmetica spazialmente. Durante la moltiplicazione delle coppie di cifre, il modello utilizzava naturalmente un’operazione geometrica chiamata somma di Minkowski, che non era stata esplicitamente programmata dai ricercatori. I ricercatori hanno raggiunto una precisione del 99% in un modello a due livelli introducendo un obiettivo di formazione modificato che insegnava al modello a tenere traccia delle somme parziali in ogni passaggio, portando così avanti valori intermedi e prodotti parziali. Questa aggiunta ha consentito al modello di sviluppare meccanismi simili a quelli di ICoT, tra cui la memorizzazione e il recupero di prodotti parziali e il monitoraggio simultaneo di più coppie di cifre. Chenhao Tan ha detto: “La nostra ricerca sta cercando di tracciare quel terreno”. Lo studio evidenzia che le intuizioni architettoniche e le tecniche di formazione possono superare gli ostacoli che il solo ridimensionamento non è in grado di affrontare, sottolineando l’importanza della guida integrata nel progresso delle capacità di intelligenza artificiale. I risultati mettono in luce aspetti fondamentali di come i grandi modelli linguistici apprendono e “pensano”, con il problema della dipendenza a lungo termine che si estende oltre l’aritmetica ad altri compiti sequenziali nella modellazione linguistica.





