Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Bytedance Vapo: l’aggiornamento AI di cui sentirai presto

byKerem Gülen
11 Aprile 2025
in Ricerca
Home Ricerca
Share on FacebookShare on Twitter
Google Preferred Source

I ricercatori di semi di bytedance hanno implementato il valore aumentato l’ottimizzazione della politica prossimale (VAPO), un quadro di formazione per l’apprendimento di rinforzo progettato per affinare il ragionamento dei modelli di linguaggio di grandi dimensioni su compiti complessi e lunghi, ottenendo nuovi risultati all’avanguardia sul benchmark AIME24.

La formazione di LLM per un ragionamento intricato utilizzando l’apprendimento di rinforzo basato sul valore ha precedentemente affrontato ostacoli significativi. Metodi hanno lottato con la distorsione del modello di valore, adattandosi efficacemente alle sequenze di risposta di lunghezze ampiamente variabili e gestendo segnali di ricompensa sparsi, in particolare nelle attività basate su verificanti che forniscono solo feedback binari.

VAPO affronta queste sfide attraverso tre innovazioni fondamentali: un quadro di formazione dettagliato basato sul valore, un meccanismo di vantaggio generalizzato di lunghezza (GAE) di regolazione dei parametri in base alla lunghezza della risposta e all’integrazione sistematica delle tecniche da ricerche precedenti.

Questa combinazione crea un sistema in cui i miglioramenti funzionano in modo sinergico. Utilizzando il modello QWEN2.5-32B senza dati SFT specifici, VAPO ha migliorato i punteggi di riferimento da 5 a 60, superando i precedenti metodi all’avanguardia di 10 punti.

VAPO si basa sull’algoritmo di ottimizzazione della politica prossimale (PPO) ma incorpora modifiche chiave per migliorare il ragionamento matematico. L’analisi della formazione ha rivelato che vapo presenta curve di allenamento più fluide rispetto al metodo DAPO senza valore, indicando un’ottimizzazione più stabile.

Vapo ha anche dimostrato un migliore ridimensionamento di lunghezza per una generalizzazione migliorata, una crescita più rapida dei punteggi attribuibile ai segnali granulari dal suo modello di valore e l’entropia inferiore nelle fasi di allenamento successive. Mentre l’entropia ridotta può potenzialmente limitare l’esplorazione, il metodo bilancia efficacemente questo, migliorando la riproducibilità e la stabilità con un impatto minimo sulle prestazioni.

Bytedance-Vapo-the-Ai-upgrade-youll-hear-about-soon
Immagine: seme di bytedance

Sul punto di riferimento AIME24, DeepSeek R1 usando GRPO ha raggiunto 47 punti e Dapo ha raggiunto 50 punti. Vapo, utilizzando il modello QWEN-32B, ha abbinato le prestazioni di DAPO con solo il 60% dei passaggi di aggiornamento e ha impostato un nuovo punteggio all’avanguardia di 60,4 entro 5.000 passaggi. Al contrario, la PPO vanilla ha segnato solo 5 punti a causa del crollo dell’apprendimento del modello di valore.


Questo punto di riferimento chiede se l’IA può pensare come un ingegnere


Gli studi di ablazione hanno confermato l’efficacia di sette distinte modifiche all’interno di vapo. La pretrattamento del valore impedisce il collasso del modello; Il GAE disaccoppiato consente la piena ottimizzazione delle risposte lunghe; Gae adattivo bilancia l’ottimizzazione a risposta breve e lunga; Clip-Higher incoraggia un’esplorazione approfondita; La perdita a livello di token aumenta la ponderazione per le risposte lunghe; Incorporare la perdita LM di esempio positivo aggiunta 6 punti; e il campionamento di gruppo ha contribuito con 5 punti al punteggio finale.

Ricercatori evidenziare Quel vapo, utilizzando il modello Qwen2.5-32B, dimostra che questo approccio basato sul valore può sovraperformare decisamente metodi privi di valore come GRPO e DAPO, stabilendo un nuovo livello di prestazione per compiti di ragionamento complessi e affrontare le sfide fondamentali nei modelli di valore di formazione per la formazione di scenari a lunghe catene.


Credito d’immagine in primo piano

Tags: Bytedancevapo

Related Posts

I ricercatori creano un worm AI che adatta gli attacchi senza input umano

I ricercatori creano un worm AI che adatta gli attacchi senza input umano

4 Giugno 2026
I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

20 Maggio 2026
Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

20 Maggio 2026
I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

20 Maggio 2026
Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

20 Maggio 2026

Recent Posts

  • Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca
  • Suno raccoglie 400 milioni di dollari per una valutazione di 5,4 miliardi di dollari nonostante le crescenti cause legali sul copyright
  • Lovable e Google espandono l’intelligenza artificiale pluriennale e la collaborazione sul cloud
  • I ricercatori creano un worm AI che adatta gli attacchi senza input umano
  • Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.