Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Il nuovo framework di test di stress rivela difetti nel ragionamento avanzato di intelligenza artificiale

byKerem Gülen
29 Luglio 2025
in Ricerca
Home Ricerca
Share on FacebookShare on Twitter
Google Preferred Source

Mentre sistemi AI avanzati noti come grandi modelli di ragionamento (LRMS) hanno dimostrato prestazioni impressionanti su complessi benchmark di risoluzione dei problemi, le loro vere capacità di ragionamento possono essere sopravvalutate dai metodi di valutazione attuali. Secondo un recente articolo di Sajjad Ansari, un nuovo framework di test di stress multi-problemi rivela che persino i modelli all’avanguardia lottano in condizioni più realistiche.

Il framework, dettagliato nell’articolo REST: un quadro di test di stress per la valutazione del ragionamento multi-problematica in grandi modelli di ragionamentoè stato sviluppato da ricercatori dell’Università di Tsinghua, Opendatalab, Shanghai AI Laboratory e Renmin University per colmare le lacune critiche su come sono testati questi modelli avanzati.

Perché i test a domanda singola stanno diventando obsoleti

La maggior parte dei benchmark più attuali utilizzati per valutare gli LRM, come GSM8K e matematica, valutano i modelli ponendo una domanda alla volta. Questo approccio ha due svantaggi significativi che ne limitano l’efficacia per la misurazione della vera capacità di ragionamento. Innanzitutto, il potere discriminatorio di questi parametri di riferimento sta diminuendo poiché i migliori modelli ottengono punteggi quasi perfetti, rendendo difficile distinguere miglioramenti significativi tra loro. Ad esempio, alcuni modelli ora raggiungono 97% Precisione su parametri di riferimento come Math500, un livello di saturazione che costringe la costosa creazione di set di dati sempre più ampi.

In secondo luogo, i test a domanda singola non riescono a riflettere gli scenari del mondo reale in cui i sistemi di intelligenza artificiale devono ragionare su più problemi potenzialmente interferenti allo stesso tempo. Applicazioni come supporto tecnico, tutoraggio educativo o assistenti di intelligenza artificiale multitasking richiedono una gestione dinamica del carico cognitivo, un’abilità che i test isolati non possono misurare. Per risolvere ciò, i ricercatori hanno sviluppato il riposo (valutazione del ragionamento attraverso test simultanei), un metodo che raggruppa più domande dai parametri di riferimento esistenti in un unico prompt per simulare meglio le esigenze del mondo reale.


Il grande paradosso di AI Trust sta cadendo mentre il suo valore aumenta


Risultati chiave del test di stress multi-problema

Applicando il framework di riposo a 34 LRM avanzati, i ricercatori hanno scoperto diverse intuizioni innovative nelle loro vere capacità. La valutazione, condotta su 7 Diversi benchmark, hanno rivelato che le prestazioni si degradano significativamente quando i modelli sono costretti a gestire contemporaneamente problemi multipli.

  • Degrado significativo delle prestazioni: Anche i modelli più performanti come DeepSeek-R1 hanno mostrato un notevole calo di precisione quando testati con il riposo. Sulle dimensioni impegnative come Aime24, l’accuratezza del modello è caduta quasi 30% Rispetto alle sue prestazioni nei test interrogativi isolati.
  • Potere discriminatorio migliorato: Il riposo ha amplificato drasticamente le differenze di prestazione tra i modelli che sono apparsi simili nei test di una domanda singola. Sul benchmark Math500, due modelli con punteggi iniziali vicini di 93% E 94,6% ha mostrato un enorme 22% Gap di prestazione in base al riposo, con le loro accurazioni che cadono 66,75% E 88,97%rispettivamente.
  • Metodo di addestramento Insights: Lo studio ha scoperto che i modelli messi a punto con metodi comuni come l’apprendimento di rinforzo su compiti a problemi singoli spesso non riescono a mantenere il proprio vantaggio in un ambiente multi-problema. Tuttavia, i modelli addestrati con tecniche “Long2Short”, che incoraggiano un ragionamento più conciso ed efficiente, hanno mantenuto una maggiore precisione sotto stress, suggerendo una direzione promettente per lo sviluppo futuro.

Il framework di riposo simula un alto Carico cognitivocostringendo i modelli ad allocare dinamicamente le risorse, resistere all’interferenza da compiti simultanei ed evitare di pensare a un singolo problema. Questo metodo consente inoltre un’analisi più sfumata di errori invisibili nei test di una domanda singola, come l’omissione delle domande, in cui un modello ignora le domande successive in un prompt e errori sommari, in cui sintetizza erroneamente le risposte da più problemi. Rivitalizzando i set di dati esistenti e riflettendo le esigenze del mondo reale, il framework fornisce un paradigma più affidabile e a prova di futuro per la valutazione dei sistemi di AI di ragionamento di prossima generazione.

Tags: LLMLRM

Related Posts

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

20 Maggio 2026
Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

20 Maggio 2026
I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

20 Maggio 2026
Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

20 Maggio 2026
Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

19 Maggio 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.