I ricercatori di Goodfire.ai hanno isolato percorsi di memorizzazione e ragionamento nelle reti neurali dell’intelligenza artificiale, descritti in dettaglio in una prestampa di fine ottobre carta. La ricerca dimostra una chiara separazione di queste funzioni all’interno di ampi modelli linguistici. Quando i percorsi di memorizzazione sono stati rimossi, i modelli hanno perso il 97% della capacità di recitare i dati di addestramento parola per parola. La loro capacità di “ragionamento logico”, tuttavia, è rimasta in gran parte intatta. I ricercatori hanno classificato i componenti del peso dal più alto al più basso in base alla “curvatura”. Nel modello linguistico OLMo-7B dell’Allen Institute for AI, il livello 22 ha mostrato che il 50% inferiore dei componenti del peso aveva un’attivazione maggiore del 23% sui dati memorizzati. Al contrario, il 10% più ricco ha mostrato un’attivazione maggiore del 26% su testo generico e non memorizzato. Questa divisione meccanicistica ha consentito la rimozione chirurgica della memorizzazione preservando altre capacità. L’eliminazione dei componenti di ultimo livello ha eliminato la memorizzazione; trattenere quelli di alto livello ha gestito la risoluzione dei problemi. Le operazioni aritmetiche sembrano condividere percorsi neurali con la memorizzazione piuttosto che con il ragionamento logico. La rimozione dei circuiti di memorizzazione ha causato un crollo delle prestazioni matematiche al 66%, mentre i compiti logici sono rimasti quasi intatti. Ciò potrebbe spiegare perché i modelli di intelligenza artificiale hanno difficoltà con la matematica senza strumenti esterni, basandosi su fatti memorizzati come “2+2=4” piuttosto che su calcoli. Il “ragionamento” dell’intelligenza artificiale comprende abilità come la valutazione di affermazioni vere/false e il rispetto delle regole se-allora, che sono sopravvissute alla rimozione della memoria. Ciò differisce dal “ragionamento matematico” più profondo necessario per dimostrazioni o nuove soluzioni di problemi, con cui gli attuali modelli di intelligenza artificiale hanno difficoltà anche con capacità di abbinamento di modelli intatte. Lo sviluppo futuro di queste tecniche di rimozione delle informazioni potrebbe consentire alle aziende di intelligenza artificiale di rimuovere contenuti protetti da copyright, informazioni private o testo memorizzato dannoso dalle reti neurali senza distruggere le prestazioni delle attività trasformative. Tuttavia, i ricercatori affermano che il loro metodo “non può garantire l’eliminazione completa delle informazioni sensibili” a causa della natura distribuita dell’archiviazione delle informazioni nelle reti neurali. Comprendere questa distinzione implica il “panorama delle perdite”, una visualizzazione dell’accuratezza della previsione di un modello di intelligenza artificiale basata su impostazioni interne o “pesi”. La “perdita” misura gli errori, dove una perdita bassa indica pochi errori. Il “panorama” mappa i tassi di errore per tutte le possibili combinazioni di impostazioni. Durante l’addestramento, i modelli di intelligenza artificiale regolano i pesi per ridurre al minimo gli errori, “rotolando in discesa” in questo panorama. I ricercatori hanno analizzato la “curvatura” dei paesaggi di perdita, misurando la sensibilità delle prestazioni del modello a piccoli cambiamenti nei pesi della rete neurale. Una curvatura elevata indica picchi e valli netti, il che significa che piccoli cambiamenti hanno effetti significativi. Una bassa curvatura indica pianure dove i cambiamenti hanno un impatto minimo. Questi valori di curvatura sono stati utilizzati per classificare i componenti del peso. Utilizzando K-FAC (curvatura approssimativa con fattore Kronecker), gli scienziati hanno scoperto che i singoli fatti memorizzati creano picchi netti e peculiari nel paesaggio che si appiattiscono quando viene calcolata la media. Al contrario, le capacità di ragionamento, su cui fanno affidamento molti input diversi, mantengono curve costanti e moderate. I ricercatori indicano che “le direzioni che implementano meccanismi condivisi utilizzati da molti input si sommano in modo coerente e rimangono in media ad alta curvatura”, descrivendo i percorsi di ragionamento. La memorizzazione, al contrario, utilizza “direzioni nette idiosincratiche associate a esempi specifici” che appaiono piatte se calcolate la media. La tecnica è stata testata su più sistemi di intelligenza artificiale, tra cui la famiglia OLMo-2 dell’Allen Institute (versioni da 7 miliardi e 1 miliardo di parametri) e Vision Transformers personalizzati da 86 milioni di parametri (modelli ViT-Base) su ImageNet. Hanno inoltre convalidato i risultati rispetto a metodi esistenti come BalancedSubnet. La rimozione selettiva dei componenti di peso a bassa curvatura ha comportato un calo del ricordo del contenuto memorizzato dal 100% circa al 3,4%. Le attività di ragionamento logico hanno mantenuto dal 95 al 106% delle prestazioni di base. I compiti logici includevano la valutazione delle espressioni booleane, puzzle di deduzione logica, tracciamento di oggetti, BoolQ per il ragionamento sì/no, Winogrande per l’inferenza del senso comune e OpenBookQA per domande scientifiche. Le operazioni matematiche e il recupero dei fatti a libro chiuso, che condividono percorsi con la memorizzazione, sono scesi dal 66 all’86% delle prestazioni dopo la modifica. L’aritmetica si è rivelata particolarmente fragile, con calcoli che fallivano anche con catene di ragionamento identiche dopo la rimozione dei componenti a bassa curvatura. Il team ha spiegato: “I problemi aritmetici stessi vengono memorizzati sulla scala 7B, o perché richiedono direzioni strettamente utilizzate per eseguire calcoli precisi”. La risposta alle domande a libro aperto, basandosi sul contesto fornito, ha mantenuto prestazioni quasi complete. La separazione dei meccanismi varia in base al tipo di informazione; fatti comuni come le capitali dei paesi hanno mostrato cambiamenti minimi dopo la modifica, mentre fatti rari come gli amministratori delegati delle aziende sono diminuiti del 78%, suggerendo un’allocazione differenziale delle risorse neurali basata sulla frequenza delle informazioni nella formazione. La tecnica K-FAC ha sovraperformato i metodi di rimozione della memorizzazione esistenti, ottenendo una memorizzazione del 16,1% su citazioni storiche invisibili rispetto al 60% di BalancedSubnet. I trasformatori di visione hanno mostrato modelli simili, rimuovendo i percorsi di memorizzazione ripristinando una precisione del 66,5% su immagini precedentemente etichettate in modo errato. I ricercatori riconoscono i limiti; i ricordi rimossi potrebbero ritornare con un ulteriore addestramento, poiché gli attuali metodi di disimparare sopprimono principalmente le informazioni. La ragione della fragilità della matematica dopo la rimozione della memorizzazione non è chiara, così come lo è se alcune capacità complesse vengano erroneamente identificate come memorizzazione. Inoltre, gli strumenti matematici per misurare il “paesaggio” del modello possono essere inaffidabili nei casi estremi.





