Ottenere modelli di linguaggio di grandi dimensioni (LLM) ragionare meglio è una cosa. Farli fare senza bruciare attraverso quantità assurde di calcolo è un’altra. Un nuovo documento di ricerca di Tu Darmstadt, UCLA, Google DeepMind e Mila scava in profondità in questo compromesso-e potrebbe semplicemente cambiare il modo in cui gli sviluppatori di intelligenza artificiale pensano al ragionamento ridimensionamento a tempo di prova.
La tensione principale? Se LLMS debba spendere il loro calcolo generando più risposte (ciò che è noto come autoconsistenza o SC) o verificare alcune risposte promettenti usando modelli di ricompensa generativa (genrms). Si scopre che, la scelta di sbagliata può rendere il tuo modello di rifiuti fino a 128 volte più calcola, per un dosso di prestazioni a malapena evidente.
La nuova matematica del ragionamento su vasta scala
LLM come GPT-4, Llama o Qwen sono diventati incredibilmente bravi a risolvere i problemi di matematica e scienze generando più catene di pensiero (COTS) e raccogliendo il risultato più comune. Questa è l’idea dietro SC – Wisdom Brute Force della folla. Ma i ricercatori sono stati anche entusiasti di GenRMS, un approccio più recente che consente a LLMS di agire come il proprio giudice verificando le risposte attraverso ulteriori ragionamenti della catena.
Confronti precedenti hanno reso il GenRM in modo selvaggiamente efficiente: abbinamento dell’accuratezza di SC con 4 × meno soluzioni. Ma questo documento chiama quell’inquadramento – duro. Perché? Perché nessuno contava il vero costo di calcolo di tutte quelle fasi di verifica.
I budget di calcolo cambiano tutto
Questo studio introduce un quadro pulito per misurare il costo reale degli approcci SC e GenRM in base a un budget di calcolo fisso. Funziona in questo modo: puoi spendere un calcolo generando più risposte (SC) o dividere quel budget tra alcune risposte e molte verifiche (GenRM). Il loro modello per il calcolo del calcolo del calcolo dell’inferenza totale è piacevolmente semplice: C (S, V) = S (1 + λv), dove S è il numero di soluzioni, v il numero di verifiche e λ riflette la lunghezza di verifica rispetto alle soluzioni.
Il risultato brutale: SC è ancora re (a meno che tu non sia ricco)
Gli esperimenti hanno lasciato pochi dubbi. Attraverso i modelli Llama e Qwen, dai parametri di 7b a 70b, e attraverso compiti di ragionamento matematico e scientifico, la storia ha ripetuto: SC ha sovraperformato il generm a budget di calcolo più bassi. Solo quando è stato calcolato in scala oltre 8 × GenRM ha recuperato il genere. E ottenere un modesto aumento delle prestazioni del 3,8% su SC ha richiesto un calcolo di 128 × in più.
Quel risultato ha resistito anche per “modelli di pensiero” avanzati come QWQ-32B e su set di dati di matematica difficili come Aime24. SC vince quando il calcolo è stretto. Il genrm ha senso solo quando il calcolo è praticamente gratuito o quando i problemi sono così difficili che la verifica paga drasticamente.
IEA WARNS: L’IA potrebbe raddoppiare l’uso dell’energia del data center globale entro il 2030
Il modo intelligente di usare il genrm (se necessario)
Tuttavia, lo studio non respinge del tutto il generm. In effetti, deriva Leggi per il ridimensionamento dell’inferenza Per GenRM-un progetto per la risoluzione dei problemi computati. La scoperta chiave? Quando si ridimensiona il generm, allocare calcolare la generazione di soluzioni più velocemente delle verifiche – circa 1,5 a 2 volte più velocemente. In numeri, le loro leggi sul ridimensionamento hanno riscontrato scale di conteggio delle soluzione ottimali con budget di calcolo come S ∝ C^0,57, mentre le verifiche ottimali si adattano a V ∝ C^0,39.
Questa ricerca lascia ai professionisti una guida molto pratica: se il calcolo è limitato, fiducia in SC e spenderlo per generare più soluzioni. Se il calcolo è abbondante, e soprattutto se hai a che fare con compiti di ragionamento più difficili, potrebbe valere la pena usare GenRM con il giusto equilibrio di ridimensionamento, ma solo con una grave ottimizzazione.
Per gli sviluppatori di intelligenza artificiale che affrontano vincoli del mondo reale, il asporto è quasi comicamente semplice: più pensieri batte più verifica, a meno che tu non abbia risorse quasi infinite. E anche allora, la verifica deve essere intelligente, efficiente e minimale.
Il giornale completo, “Quando risolvere, quando verificare: risolvere i problemi di calcolo e verifica generativa per il ragionamento LLM“, È disponibile arxiv. La loro base di codice è aperta a Github.