L’ascesa di grandi modelli linguistici (LLM) è stato a dir poco trasformativo. Questi sistemi di intelligenza artificiale eccellono nel ragionamento complesso, abbattendo i problemi in passaggi strutturati e logici noti come Ragionamento a catena di pensiero (COT). Tuttavia, poiché la ricerca AI spinge per l’efficienza, emerge una domanda chiave: I modelli più piccoli possono ereditare queste capacità di ragionamento avanzate attraverso la distillazione da modelli più grandi?
Un nuovo studio Di Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian e Radha Poovenendran dell’Università di Washington, Università di Carnegie Mellon e Western Washington University suggerisce che la risposta è più complicata che in precedenza pensato. Nello studio chiamato “Piccoli modelli fatica ad imparare da forti ragionieri“I ricercatori hanno identificato ciò che chiamano il Piccolo modello di apprendimento—Un fenomeno in cui piccoli modelli (parametri ≤3b) lottano per beneficiare dell’intricato ragionamento delle loro controparti più grandi. Invece, questi modelli funzionano meglio quando sono addestrati Passi di ragionamento più brevi e più semplici o distillato dall’altro piccoli modelli.
Questa scoperta sfida la convinzione convenzionale che più grande è sempre meglio quando si tratta di trasferimento di conoscenza AI. Lo studio propone anche a Nuovo approccio alla distillazione dell’IA—Uno che mescola la complessità di ragionamento per aiutare i modelli più piccoli a imparare in modo più efficace.
Perché i piccoli modelli di intelligenza artificiale lottano con un ragionamento complesso
LLMS come GPT-4O, Claude 3 Opus e Gemelli sono addestrati su set di dati enormi e ottimizzati per elaborare catene di ragionamento intricate. Le loro spiegazioni passo-passo migliorano l’accuratezza della risoluzione dei problemi in campi come matematica, inferenza logica e processo decisionale strutturato.
Naturalmente, i ricercatori di AI hanno tentato di farlo “Restringersi” Questa intelligenza in modelli più piccoli, che li colpisce usando output da modelli più grandi. L’idea è semplice: allena un modello più piccolo su Tracce di ragionamento lunghe e dettagliate Generato da un’intelligenza artificiale più grande, sperando che assorbirà la stessa logica strutturata.
Ma lo studio trova questo approccio Spesso gli incendi.
- I piccoli modelli non riescono a interiorizzare le lunghe fasi di ragionamento: Quando addestrato spiegazioni lunghe e intricateModelli più piccoli lottano per generalizzare, portando a cadute di prestazioni.
- Imparano meglio da catene di ragionamento più semplici: Allenamento di piccoli modelli sequenze di ragionamento più brevi e più concise Migliora la loro capacità di elaborare i passaggi logici.
- Più grande non è sempre meglio per insegnare AI: Le catene di ragionamento generate dal modello di grandi dimensioni non migliorano sempre il ragionamento dei modelli più piccoli, a volte lo ostacolano.
Questo effetto è particolarmente evidente in compiti legati alla matematicadove la risoluzione strutturata strutturata svolge un ruolo cruciale. Il team di ricerca ha valutato piccoli modelli su vari benchmark, incluso Math, GSM8K, AIME, AMC e Olympiadbenchtrovare quella complessa distillazione di ragionamento ha spesso portato a prestazioni ridotte.
La correzione: miscelare la distillazione
Per affrontare questo Imparare il collo di bottigliai ricercatori propongono a Mescolare la distillazione approccio. Invece di addestrare esclusivamente piccoli modelli su sequenze di COT lunghe o distillazione da grandi modelli, questo metodo bilancia la complessità del ragionamento Combinando più stili di ragionamento.
La loro strategia consiste in due configurazioni:
- Mix lungo: Una combinazione di catene di ragionamento brevi e lunghegarantendo che piccoli modelli siano esposti a logica sia dettagliata che semplificata.
- Mix-large: Una miscela di ragionamenti passi da modelli grandi e piccoliottimizzare il trasferimento delle conoscenze senza schiacciare i modelli più piccoli.
Gli esperimenti lo mostrano La distillazione della miscela migliora significativamente il ragionamento dei piccoli modelli Rispetto alla formazione sui dati a source singola.
Ad esempio:
- Qwen2.5-3b-instruct migliorato da 8+ punti sui benchmark di matematica e AMC usando Mix lungorispetto alla formazione solo sui dati di COT lunghi.
- Lo stesso modello guadagnato 7+ punti usando Mix-largerispetto alla distillazione diretta da un grande modello di insegnante.
Il takeaway? I piccoli modelli non devono imitare i grandi modelli alla lettera: hanno bisogno di un mix accuratamente curato di complessità di ragionamento.
Credito immagine in primo piano: Kerem Gülen/Midjourney