Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Perché lanciare più calcolo di intelligenza artificiale alla verifica potrebbe essere un errore

byKerem Gülen
11 Aprile 2025
in Ricerca
Home Ricerca
Share on FacebookShare on Twitter
Google Preferred Source

Ottenere modelli di linguaggio di grandi dimensioni (LLM) ragionare meglio è una cosa. Farli fare senza bruciare attraverso quantità assurde di calcolo è un’altra. Un nuovo documento di ricerca di Tu Darmstadt, UCLA, Google DeepMind e Mila scava in profondità in questo compromesso-e potrebbe semplicemente cambiare il modo in cui gli sviluppatori di intelligenza artificiale pensano al ragionamento ridimensionamento a tempo di prova.

La tensione principale? Se LLMS debba spendere il loro calcolo generando più risposte (ciò che è noto come autoconsistenza o SC) o verificare alcune risposte promettenti usando modelli di ricompensa generativa (genrms). Si scopre che, la scelta di sbagliata può rendere il tuo modello di rifiuti fino a 128 volte più calcola, per un dosso di prestazioni a malapena evidente.

La nuova matematica del ragionamento su vasta scala

LLM come GPT-4, Llama o Qwen sono diventati incredibilmente bravi a risolvere i problemi di matematica e scienze generando più catene di pensiero (COTS) e raccogliendo il risultato più comune. Questa è l’idea dietro SC – Wisdom Brute Force della folla. Ma i ricercatori sono stati anche entusiasti di GenRMS, un approccio più recente che consente a LLMS di agire come il proprio giudice verificando le risposte attraverso ulteriori ragionamenti della catena.

Confronti precedenti hanno reso il GenRM in modo selvaggiamente efficiente: abbinamento dell’accuratezza di SC con 4 × meno soluzioni. Ma questo documento chiama quell’inquadramento – duro. Perché? Perché nessuno contava il vero costo di calcolo di tutte quelle fasi di verifica.

I budget di calcolo cambiano tutto

Questo studio introduce un quadro pulito per misurare il costo reale degli approcci SC e GenRM in base a un budget di calcolo fisso. Funziona in questo modo: puoi spendere un calcolo generando più risposte (SC) o dividere quel budget tra alcune risposte e molte verifiche (GenRM). Il loro modello per il calcolo del calcolo del calcolo dell’inferenza totale è piacevolmente semplice: C (S, V) = S (1 + λv), dove S è il numero di soluzioni, v il numero di verifiche e λ riflette la lunghezza di verifica rispetto alle soluzioni.

Il risultato brutale: SC è ancora re (a meno che tu non sia ricco)

Gli esperimenti hanno lasciato pochi dubbi. Attraverso i modelli Llama e Qwen, dai parametri di 7b a 70b, e attraverso compiti di ragionamento matematico e scientifico, la storia ha ripetuto: SC ha sovraperformato il generm a budget di calcolo più bassi. Solo quando è stato calcolato in scala oltre 8 × GenRM ha recuperato il genere. E ottenere un modesto aumento delle prestazioni del 3,8% su SC ha richiesto un calcolo di 128 × in più.

Quel risultato ha resistito anche per “modelli di pensiero” avanzati come QWQ-32B e su set di dati di matematica difficili come Aime24. SC vince quando il calcolo è stretto. Il genrm ha senso solo quando il calcolo è praticamente gratuito o quando i problemi sono così difficili che la verifica paga drasticamente.


IEA WARNS: L’IA potrebbe raddoppiare l’uso dell’energia del data center globale entro il 2030


Il modo intelligente di usare il genrm (se necessario)

Tuttavia, lo studio non respinge del tutto il generm. In effetti, deriva Leggi per il ridimensionamento dell’inferenza Per GenRM-un progetto per la risoluzione dei problemi computati. La scoperta chiave? Quando si ridimensiona il generm, allocare calcolare la generazione di soluzioni più velocemente delle verifiche – circa 1,5 a 2 volte più velocemente. In numeri, le loro leggi sul ridimensionamento hanno riscontrato scale di conteggio delle soluzione ottimali con budget di calcolo come S ∝ C^0,57, mentre le verifiche ottimali si adattano a V ∝ C^0,39.

Questa ricerca lascia ai professionisti una guida molto pratica: se il calcolo è limitato, fiducia in SC e spenderlo per generare più soluzioni. Se il calcolo è abbondante, e soprattutto se hai a che fare con compiti di ragionamento più difficili, potrebbe valere la pena usare GenRM con il giusto equilibrio di ridimensionamento, ma solo con una grave ottimizzazione.

Per gli sviluppatori di intelligenza artificiale che affrontano vincoli del mondo reale, il asporto è quasi comicamente semplice: più pensieri batte più verifica, a meno che tu non abbia risorse quasi infinite. E anche allora, la verifica deve essere intelligente, efficiente e minimale.

Il giornale completo, “Quando risolvere, quando verificare: risolvere i problemi di calcolo e verifica generativa per il ragionamento LLM“, È disponibile arxiv. La loro base di codice è aperta a Github.


Credito d’immagine in primo piano

Tags: AILlms

Related Posts

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

20 Maggio 2026
Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

20 Maggio 2026
I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

20 Maggio 2026
Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

20 Maggio 2026
Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

19 Maggio 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.