Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Il nuovo framework di test di stress rivela difetti nel ragionamento avanzato di intelligenza artificiale

byKerem Gülen
29 Luglio 2025
in Research
Home Research
Share on FacebookShare on Twitter

Mentre sistemi AI avanzati noti come grandi modelli di ragionamento (LRMS) hanno dimostrato prestazioni impressionanti su complessi benchmark di risoluzione dei problemi, le loro vere capacità di ragionamento possono essere sopravvalutate dai metodi di valutazione attuali. Secondo un recente articolo di Sajjad Ansari, un nuovo framework di test di stress multi-problemi rivela che persino i modelli all’avanguardia lottano in condizioni più realistiche.

Il framework, dettagliato nell’articolo REST: un quadro di test di stress per la valutazione del ragionamento multi-problematica in grandi modelli di ragionamentoè stato sviluppato da ricercatori dell’Università di Tsinghua, Opendatalab, Shanghai AI Laboratory e Renmin University per colmare le lacune critiche su come sono testati questi modelli avanzati.

Perché i test a domanda singola stanno diventando obsoleti

La maggior parte dei benchmark più attuali utilizzati per valutare gli LRM, come GSM8K e matematica, valutano i modelli ponendo una domanda alla volta. Questo approccio ha due svantaggi significativi che ne limitano l’efficacia per la misurazione della vera capacità di ragionamento. Innanzitutto, il potere discriminatorio di questi parametri di riferimento sta diminuendo poiché i migliori modelli ottengono punteggi quasi perfetti, rendendo difficile distinguere miglioramenti significativi tra loro. Ad esempio, alcuni modelli ora raggiungono 97% Precisione su parametri di riferimento come Math500, un livello di saturazione che costringe la costosa creazione di set di dati sempre più ampi.

In secondo luogo, i test a domanda singola non riescono a riflettere gli scenari del mondo reale in cui i sistemi di intelligenza artificiale devono ragionare su più problemi potenzialmente interferenti allo stesso tempo. Applicazioni come supporto tecnico, tutoraggio educativo o assistenti di intelligenza artificiale multitasking richiedono una gestione dinamica del carico cognitivo, un’abilità che i test isolati non possono misurare. Per risolvere ciò, i ricercatori hanno sviluppato il riposo (valutazione del ragionamento attraverso test simultanei), un metodo che raggruppa più domande dai parametri di riferimento esistenti in un unico prompt per simulare meglio le esigenze del mondo reale.


Il grande paradosso di AI Trust sta cadendo mentre il suo valore aumenta


Risultati chiave del test di stress multi-problema

Applicando il framework di riposo a 34 LRM avanzati, i ricercatori hanno scoperto diverse intuizioni innovative nelle loro vere capacità. La valutazione, condotta su 7 Diversi benchmark, hanno rivelato che le prestazioni si degradano significativamente quando i modelli sono costretti a gestire contemporaneamente problemi multipli.

  • Degrado significativo delle prestazioni: Anche i modelli più performanti come DeepSeek-R1 hanno mostrato un notevole calo di precisione quando testati con il riposo. Sulle dimensioni impegnative come Aime24, l’accuratezza del modello è caduta quasi 30% Rispetto alle sue prestazioni nei test interrogativi isolati.
  • Potere discriminatorio migliorato: Il riposo ha amplificato drasticamente le differenze di prestazione tra i modelli che sono apparsi simili nei test di una domanda singola. Sul benchmark Math500, due modelli con punteggi iniziali vicini di 93% E 94,6% ha mostrato un enorme 22% Gap di prestazione in base al riposo, con le loro accurazioni che cadono 66,75% E 88,97%rispettivamente.
  • Metodo di addestramento Insights: Lo studio ha scoperto che i modelli messi a punto con metodi comuni come l’apprendimento di rinforzo su compiti a problemi singoli spesso non riescono a mantenere il proprio vantaggio in un ambiente multi-problema. Tuttavia, i modelli addestrati con tecniche “Long2Short”, che incoraggiano un ragionamento più conciso ed efficiente, hanno mantenuto una maggiore precisione sotto stress, suggerendo una direzione promettente per lo sviluppo futuro.

Il framework di riposo simula un alto Carico cognitivocostringendo i modelli ad allocare dinamicamente le risorse, resistere all’interferenza da compiti simultanei ed evitare di pensare a un singolo problema. Questo metodo consente inoltre un’analisi più sfumata di errori invisibili nei test di una domanda singola, come l’omissione delle domande, in cui un modello ignora le domande successive in un prompt e errori sommari, in cui sintetizza erroneamente le risposte da più problemi. Rivitalizzando i set di dati esistenti e riflettendo le esigenze del mondo reale, il framework fornisce un paradigma più affidabile e a prova di futuro per la valutazione dei sistemi di AI di ragionamento di prossima generazione.

Tags: LLMLRM

Related Posts

Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

7 Gennaio 2026
L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

6 Gennaio 2026
DeepSeek introduce le iperconnessioni vincolate a collettori per R2

DeepSeek introduce le iperconnessioni vincolate a collettori per R2

6 Gennaio 2026
I ricercatori della CMU sviluppano oggetti semoventi alimentati dall’intelligenza artificiale

I ricercatori della CMU sviluppano oggetti semoventi alimentati dall’intelligenza artificiale

31 Dicembre 2025
Il Glean’s Work AI Institute identifica 5 principali tensioni sull’IA

Il Glean’s Work AI Institute identifica 5 principali tensioni sull’IA

31 Dicembre 2025
L’intelligenza artificiale corrompe la ricerca accademica con citazioni di studi inesistenti

L’intelligenza artificiale corrompe la ricerca accademica con citazioni di studi inesistenti

30 Dicembre 2025

Recent Posts

  • Dal 2008, Apple ha pagato agli sviluppatori 550 miliardi di dollari tramite App Store
  • Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori
  • Amazon: il 97% dei nostri dispositivi è pronto per Alexa+
  • Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri
  • La Paramount fa causa alla Warner Bros. per imporre la trasparenza sull'accordo con Netflix

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.