Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Perché i piccoli modelli di intelligenza artificiale non possono tenere il passo con quelli di grandi dimensioni

byKerem Gülen
18 Febbraio 2025
in Research
Home Research
Share on FacebookShare on Twitter

L’ascesa di grandi modelli linguistici (LLM) è stato a dir poco trasformativo. Questi sistemi di intelligenza artificiale eccellono nel ragionamento complesso, abbattendo i problemi in passaggi strutturati e logici noti come Ragionamento a catena di pensiero (COT). Tuttavia, poiché la ricerca AI spinge per l’efficienza, emerge una domanda chiave: I modelli più piccoli possono ereditare queste capacità di ragionamento avanzate attraverso la distillazione da modelli più grandi?

Un nuovo studio Di Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian e Radha Poovenendran dell’Università di Washington, Università di Carnegie Mellon e Western Washington University suggerisce che la risposta è più complicata che in precedenza pensato. Nello studio chiamato “Piccoli modelli fatica ad imparare da forti ragionieri“I ricercatori hanno identificato ciò che chiamano il Piccolo modello di apprendimento—Un fenomeno in cui piccoli modelli (parametri ≤3b) lottano per beneficiare dell’intricato ragionamento delle loro controparti più grandi. Invece, questi modelli funzionano meglio quando sono addestrati Passi di ragionamento più brevi e più semplici o distillato dall’altro piccoli modelli.

Questa scoperta sfida la convinzione convenzionale che più grande è sempre meglio quando si tratta di trasferimento di conoscenza AI. Lo studio propone anche a Nuovo approccio alla distillazione dell’IA—Uno che mescola la complessità di ragionamento per aiutare i modelli più piccoli a imparare in modo più efficace.

Perché i piccoli modelli di intelligenza artificiale lottano con un ragionamento complesso

LLMS come GPT-4O, Claude 3 Opus e Gemelli sono addestrati su set di dati enormi e ottimizzati per elaborare catene di ragionamento intricate. Le loro spiegazioni passo-passo migliorano l’accuratezza della risoluzione dei problemi in campi come matematica, inferenza logica e processo decisionale strutturato.

Naturalmente, i ricercatori di AI hanno tentato di farlo “Restringersi” Questa intelligenza in modelli più piccoli, che li colpisce usando output da modelli più grandi. L’idea è semplice: allena un modello più piccolo su Tracce di ragionamento lunghe e dettagliate Generato da un’intelligenza artificiale più grande, sperando che assorbirà la stessa logica strutturata.

Ma lo studio trova questo approccio Spesso gli incendi.

  • I piccoli modelli non riescono a interiorizzare le lunghe fasi di ragionamento: Quando addestrato spiegazioni lunghe e intricateModelli più piccoli lottano per generalizzare, portando a cadute di prestazioni.
  • Imparano meglio da catene di ragionamento più semplici: Allenamento di piccoli modelli sequenze di ragionamento più brevi e più concise Migliora la loro capacità di elaborare i passaggi logici.
  • Più grande non è sempre meglio per insegnare AI: Le catene di ragionamento generate dal modello di grandi dimensioni non migliorano sempre il ragionamento dei modelli più piccoli, a volte lo ostacolano.

Questo effetto è particolarmente evidente in compiti legati alla matematicadove la risoluzione strutturata strutturata svolge un ruolo cruciale. Il team di ricerca ha valutato piccoli modelli su vari benchmark, incluso Math, GSM8K, AIME, AMC e Olympiadbenchtrovare quella complessa distillazione di ragionamento ha spesso portato a prestazioni ridotte.

La correzione: miscelare la distillazione

Per affrontare questo Imparare il collo di bottigliai ricercatori propongono a Mescolare la distillazione approccio. Invece di addestrare esclusivamente piccoli modelli su sequenze di COT lunghe o distillazione da grandi modelli, questo metodo bilancia la complessità del ragionamento Combinando più stili di ragionamento.

La loro strategia consiste in due configurazioni:

  1. Mix lungo: Una combinazione di catene di ragionamento brevi e lunghegarantendo che piccoli modelli siano esposti a logica sia dettagliata che semplificata.
  2. Mix-large: Una miscela di ragionamenti passi da modelli grandi e piccoliottimizzare il trasferimento delle conoscenze senza schiacciare i modelli più piccoli.

Gli esperimenti lo mostrano La distillazione della miscela migliora significativamente il ragionamento dei piccoli modelli Rispetto alla formazione sui dati a source singola.

Ad esempio:

  • Qwen2.5-3b-instruct migliorato da 8+ punti sui benchmark di matematica e AMC usando Mix lungorispetto alla formazione solo sui dati di COT lunghi.
  • Lo stesso modello guadagnato 7+ punti usando Mix-largerispetto alla distillazione diretta da un grande modello di insegnante.

Il takeaway? I piccoli modelli non devono imitare i grandi modelli alla lettera: hanno bisogno di un mix accuratamente curato di complessità di ragionamento.


Credito immagine in primo piano: Kerem Gülen/Midjourney

Tags: AI

Related Posts

JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente

JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente

21 Gennaio 2026
Miggo Security aggira le difese di Google Gemini tramite gli inviti del calendario

Miggo Security aggira le difese di Google Gemini tramite gli inviti del calendario

21 Gennaio 2026
Analista di Forrester: L’intelligenza artificiale non è riuscita a spostare l’ago della produttività globale

Analista di Forrester: L’intelligenza artificiale non è riuscita a spostare l’ago della produttività globale

20 Gennaio 2026
Come l'intelligenza artificiale ha creato il malware VoidLink in soli sette giorni

Come l'intelligenza artificiale ha creato il malware VoidLink in soli sette giorni

20 Gennaio 2026
OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

19 Gennaio 2026
Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

15 Gennaio 2026

Recent Posts

  • Spotify lancia le playlist guidate basate sull'intelligenza artificiale
  • Snap implementa il monitoraggio granulare del tempo di utilizzo nell'aggiornamento del Family Center
  • Google Foto ridisegna la condivisione con un coinvolgente carosello a schermo intero
  • NexPhone lancia un telefono con triplo sistema operativo per $ 549
  • Revisioni antropiche dei test di assunzione grazie a Claude AI

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.