I moderni modelli di intelligenza artificiale stanno avanzando a velocità di interruzione, ma il modo in cui li valutiamo ha appena mantenuto il ritmo. I parametri di riferimento tradizionali ci dicono se un modello ha superato o fallito un test, ma raramente offrono approfondimenti sul perché ha eseguito il modo in cui ha fatto o come potrebbe variare su sfide sconosciute. Un nuovo sforzo di ricerca di Microsoft e dei suoi collaboratori propone un quadro rigoroso che reinventa il modo in cui valutiamo i sistemi di intelligenza artificiale.
Valutazione dell’IA da ciò che deve sapere
L’innovazione principale introdotto In questo studio è un quadro chiamato Adele, abbreviazione di livelli di richiesta annotata. Invece di testare i modelli in isolamento, Adele segna sia il modello che il compito sullo stesso insieme di scale cognitive e basate sulla conoscenza. Il risultato è un profilo completo che cattura quanto sia impegnativa un’attività e se un sistema di AI specifico ha le capacità necessarie per gestirlo.
Adele opera attraverso 18 scale generaliognuno che riflette un aspetto chiave della conoscenza cognitiva o di dominio come ragionamento, attenzione o competenza formale in materia. Le attività sono classificate da 0 a 5 su ciascuna dimensione, indicando quanto tale abilità contribuisce al completamento con successo dell’attività. Questa annotazione a doppio lato crea una sorta di punteggio di compatibilità tra modelli e compiti, consentendo di prevedere i risultati e spiegare i fallimenti prima che si verifichino.

Ciò che distingue Adele è la sua base in psicometria, un campo interessato alla misurazione delle capacità umane. Adattando questi strumenti di valutazione umana per l’IA, i ricercatori hanno creato un quadro che può essere utilizzato in modo affidabile dai sistemi automatizzati. Adele è stato applicato a 63 compiti da 20 benchmark AI stabiliti, che coprono più di 16.000 esempi. I ricercatori hanno quindi utilizzato questo set di dati per valutare 15 grandi modelli linguistici, tra cui leader del settore come GPT-4, Llama-3.1-405B, e DeepSeek-R1-DIST-QWEN-32B.
Il processo ha generato profili di abilità per ciascun modello. Questi profili illustrano come i tassi di successo variano con la complessità delle attività attraverso diverse competenze, offrendo una comprensione granulare delle capacità del modello. I grafici radar visualizzano questi profili attraverso le 18 dimensioni dell’abilità, rivelando modelli sfumati che i punteggi di riferimento grezzi da soli non possono.
Questa vasta valutazione è emersa diverse scoperte che sfidano le attuali ipotesi sulle prestazioni e sui progressi dell’IA.
- Primo, I benchmark di AI esistenti spesso non riescono a testare ciò che sostengono. Ad esempio, un punto di riferimento progettato per il ragionamento logico potrebbe anche richiedere una conoscenza del dominio di nicchia o alti livelli di metacognizione, diluindo il focus previsto.
- Secondo, Il team ha scoperto schemi di abilità distinti in modelli di linguaggio di grandi dimensioni. I modelli incentrati sul ragionamento hanno costantemente sovraperformato gli altri in compiti che coinvolgono la logica, l’astrazione e la comprensione del contesto sociale. Tuttavia, la dimensione grezza da sola non ha garantito la superiorità. Passato a un certo punto, il ridimensionamento dei modelli ha prodotto rendimenti decrescenti in molte aree di abilità. Le tecniche di addestramento e il design del modello sembravano svolgere un ruolo più ampio nel raffinare le prestazioni in specifici domini cognitivi.
- Terzo, E forse più significativamente, Adele ha consentito previsioni accurate del successo del modello su compiti non familiari. Confrontando le richieste di attività con le capacità del modello, i ricercatori hanno raggiunto accuratezze di previsione fino all’88 percento. Ciò rappresenta un salto sostanziale sugli approcci di Black-Box che si basano su incastri o punteggi perfezionati senza alcuna comprensione della difficoltà del compito o della cognizione del modello.

Utilizzando l’approccio di abbinamento per la richiesta di abilità, il team ha sviluppato un sistema in grado di prevedere il comportamento di intelligenza artificiale in una vasta gamma di scenari. Sia applicato a nuovi parametri di riferimento o sfide del mondo reale, questo sistema fornisce un metodo strutturato e interpretabile per anticipare i guasti e identificare modelli adeguati per casi d’uso specifici. Questa capacità predittiva è particolarmente rilevante negli ambienti ad alto rischio in cui l’affidabilità e la responsabilità non sono negoziabili.
Piuttosto che distribuire l’IA in base alla reputazione generale o ai punteggi delle attività limitate, gli sviluppatori e i decisori possono ora utilizzare valutazioni a livello di domanda per abbinare i sistemi a compiti con una fiducia molto maggiore. Ciò supporta non solo un’implementazione più affidabile, ma anche una migliore governance, poiché le parti interessate possono risalire al comportamento del modello su capacità e limitazioni misurabili.
Il tuo partner di intelligenza artificiale generativo super utile sta rendendo noioso il tuo lavoro?
Le implicazioni di Adele si estendono oltre i laboratori di ricerca. Questo metodo di valutazione offre una base per valutazioni standardizzate e interpretabili in grado di supportare tutto, dalla ricerca AI e allo sviluppo del prodotto alla supervisione normativa e alla fiducia pubblica. Man mano che l’intelligenza artificiale generale viene incorporata in settori come l’educazione, l’assistenza sanitaria e la legge, la comprensione di come i modelli si comporteranno al di fuori del loro contesto di formazione diventa non solo utile ma essenziale.
Il design modulare di Adele consente di adattarsi a sistemi multimodali e incarnati, espandendo ulteriormente la sua rilevanza. Si allinea con la posizione più ampia di Microsoft sull’importanza della psicometria nell’intelligenza artificiale ed eco chiama nei recenti documenti bianchi per strumenti di valutazione dell’IA più trasparenti, trasferibili e affidabili.
Verso standard di valutazione più intelligenti
Per tutto l’ottimismo sui modelli di fondazione, uno dei rischi incombenti è stata la mancanza di pratiche di valutazione significative. I parametri di riferimento hanno guidato i progressi, ma hanno anche limitato la nostra visibilità a ciò che i modelli effettivamente comprendono o come potrebbero comportarsi in situazioni inaspettate. Con Adele, ora abbiamo un percorso per cambiarlo.
Questo lavoro riformula la valutazione non come una lista di controllo dei punteggi ma come interazione dinamica tra sistemi e attività. Trattando le prestazioni in funzione dell’adattamento della domanda, pone le basi per una comprensione più scientifica, affidabile e sfumata delle capacità di intelligenza artificiale. Quella fondazione è fondamentale non solo per il progresso tecnico, ma anche per l’adozione responsabile dell’IA in contesti umani complessi.