Openi ha annunciato un nuovo quadro di valutazione, GDPVAL, per misurare le prestazioni di intelligenza artificiale su compiti economicamente preziosi. Il sistema testa i modelli su 1.320 incarichi di lavoro del mondo reale per colmare il divario tra benchmark accademici e applicazione pratica. Il framework GDPVal valuta come i modelli di intelligenza artificiale affrontano 1.320 compiti distinti associati a 44 diverse professioni. Questi posti di lavoro sono principalmente posizioni di lavoro all’interno delle industrie che contribuiscono ciascuno di oltre il 5% al prodotto interno lordo (PIL) degli Stati Uniti. Per costruire questo elenco di professioni pertinenti, Openi ha utilizzato dati dall’US Bureau of Labor Statistics (BLS) di maggio 2024 e dal database netto del Dipartimento del Lavoro. La conseguente selezione di professioni include le professioni frequentemente associate all’integrazione dell’IA, come ingegneri del software, avvocati e redattori di video. Il quadro si estende anche alle professioni meno comunemente discusse nel contesto dell’IA, tra cui detective, farmacisti e assistenti sociali, fornendo una valutazione più ampia del potenziale impatto economico. Secondo la società, i compiti all’interno della valutazione sono stati creati da professionisti che possiedono una media di 14 anni di esperienza nei rispettivi campi. Questa misura era destinata a garantire che i compiti riflettono accuratamente “prodotti di lavoro reali, come un brief legale, un progetto di ingegneria, una conversazione per l’assistenza clienti o un piano di assistenza infermieristica”. Openi ha specificato che l’ambito di GDPVAL su numerosi compiti e professioni lo distingue da altre valutazioni incentrate sul valore economico, che può concentrarsi su un singolo dominio come l’ingegneria del software. La progettazione della valutazione rinuncia a semplici richieste di testo. Invece, fornisce ai modelli AI i file per fare riferimento e richiede la creazione di risultati multimodali, come diapositive di presentazione e documenti formattati. Questo approccio ha lo scopo di simulare come un utente interagirebbe con la tecnologia in un ambiente di lavoro professionale. Openai ha dichiarato: “Questo realismo rende GDPVal un test più realistico di come i modelli potrebbero supportare i professionisti”. Nel suo studio, Openai ha utilizzato il framework GDPVal per valutare le uscite di molti dei suoi modelli, tra cui GPT-4O, GPT-4o-Mini, GPT-3 e il più recente GPT-5. La valutazione includeva anche modelli di altre società: Claude Opus 4.1 di Antropic, Gemini 2.5 Pro di Google e Grok 4 di Xai. Il nucleo del processo di classificazione ha coinvolto professionisti esperti che hanno eseguito valutazioni cieche degli output dei modelli. Questi alunni umani hanno inconsapevolmente confrontato il lavoro generato dall’IA contro i risultati prodotti da esperti umani, fornendo un punto di riferimento di qualità diretta senza conoscenza dell’origine del lavoro. Per integrare questo processo guidato dall’uomo, Openai ha sviluppato un sistema di intelligenza artificiale “autografo”. Questo sistema è progettato per prevedere come un valutatore umano segnerebbe un determinato risultato. La società ha annunciato l’intenzione di rilasciare questo autografo come strumento di ricerca sperimentale che altri possono utilizzare. Openi ha emesso una cautela, tuttavia, affermando che l’autografo non è affidabile come i selezionatori umani. Ha affermato che lo strumento non ha lo scopo di sostituire la valutazione umana nel prossimo futuro, riflettendo il giudizio sfumato richiesto per valutare il lavoro professionale di alta qualità. I risultati iniziali dei test GDPVAL indicano che l’attuale AI avanzata si avvicina agli standard di qualità dei professionisti umani. “Abbiamo scoperto che i migliori modelli di frontiera di oggi si stanno già avvicinando alla qualità del lavoro prodotto dagli esperti del settore”, ha scritto Openai. Tra i modelli testati, Claude Opus 4.1 di Antropic è stato identificato come il miglior performer complessivo. I suoi particolari punti di forza sono stati osservati in compiti relativi all’estetica, che comprende elementi come la formattazione professionale dei documenti e il layout chiaro ed efficace delle diapositive di presentazione. Queste qualità sono spesso fondamentali per i materiali rivolti al cliente e una comunicazione efficace in un contesto aziendale. Mentre Claude Opus 4.1 eccelleva nella presentazione, il modello GPT-5 di Openai ha dimostrato prestazioni superiori in precisione. Ciò era particolarmente evidente nei compiti che richiedevano la ricerca e l’applicazione corretta delle conoscenze specifiche del dominio. La ricerca ha anche messo in evidenza il rapido ritmo del miglioramento del modello. I risultati hanno mostrato che le prestazioni sui compiti GDPVAL “sono più che raddoppiati da GPT-4O (rilasciato primavera 2024) a GPT-5 (rilasciato estate 2025)”. Questo sostanziale aumento della capacità per un periodo relativamente breve indica un’accelerazione significativa nello sviluppo di tecnologie di intelligenza artificiale sottostanti. La valutazione includeva anche un’analisi dell’efficienza. “Abbiamo scoperto che i modelli di frontiera possono completare le attività GDPVal all’incirca 100 × più veloci e 100 × più economiche degli esperti del settore”, ha riferito Openai. La società ha immediatamente qualificato questa scoperta con un avvertimento critico. “Tuttavia, queste cifre riflettono il tempo di inferenza del modello puro e i tassi di fatturazione dell’API e quindi non catturano le fasi di supervisione, iterazione e integrazione umana richieste nelle impostazioni reali sul posto di lavoro per utilizzare i nostri modelli.” Questo contesto chiarisce che il calcolo esclude il tempo e i costi considerevoli associati alla gestione, alla raffinazione e all’implementazione del lavoro generato dall’IA in un flusso di lavoro aziendale pratico. Openai ha riconosciuto limitazioni significative nell’attuale versione del framework GDPVal, descrivendolo come “un primo passo che non riflette la sfumatura completa di molti compiti economici”. Un grande vincolo è il suo uso di valutazioni una tantum. Ciò significa che il framework non può misurare la capacità di un modello di gestire il lavoro iterativo, come il completamento di più bozze di un progetto o la sua capacità di assorbire il contesto per un compito in corso nel tempo. Ad esempio, il test corrente non può valutare se un modello potrebbe modificare correttamente un brief legale in base al feedback dei clienti o rifare un’analisi dei dati per tenere conto di un’anomalia appena scoperta. Un’ulteriore limitazione rilevata dalla società è che il lavoro professionale non è sempre un processo semplice con file organizzati e una direttiva chiara. L’attuale quadro non può catturare gli aspetti più complessi e meno strutturati di molti lavori. Ciò include il lavoro “umano e profondamente contestuale di esplorare un problema attraverso la conversazione e affrontare l’ambiguità o le circostanze mutevoli”. Questi elementi sono spesso fondamentali per i ruoli professionali ma sono difficili da replicare in un ambiente di test standardizzato. “La maggior parte dei lavori sono più di una semplice raccolta di compiti che possono essere scritti”, ha aggiunto Openai. La società ha dichiarato l’intenzione di affrontare queste limitazioni nelle future iterazioni del framework. I piani includono l’espansione della sua portata per abbracciare più industrie e incorporare compiti più difficili da accumulare. In particolare, Openi tenterà di sviluppare valutazioni per compiti che coinvolgono flussi di lavoro interattivi, in cui un modello deve impegnarsi in un processo avanti e indietro o quelli che richiedono una comprensione del contesto precedente, che rimane una sfida per molti sistemi di intelligenza artificiale. Come parte di questa espansione, Openi rilascerà un sottoinsieme delle attività GDPVal per i ricercatori da utilizzare nel proprio lavoro. Da questi risultati, la conclusione dichiarata di Openai è che l’IA continuerà inevitabilmente a interrompere il mercato del lavoro. L’azienda sostiene che l’IA può assumere un “lavoro impegnato” di routine, liberando così i lavoratori umani per concentrarsi su compiti più complessi e strategici. Questa prospettiva incornicia l’IA come strumento per aumentare la produttività umana piuttosto che puramente per la sostituzione. “Soprattutto sul sottoinsieme di compiti in cui i modelli sono particolarmente forti, ci aspettiamo che dare un compito a un modello prima di provarlo con un essere umano risparmierebbe tempo e denaro”, ha scritto Openai. In concomitanza con questi risultati, la società ha ribadito il suo impegno dichiarato per la sua missione più ampia. Ciò include piani per democratizzare l’accesso agli strumenti di intelligenza artificiale, uno sforzo per continuare a “sostenere i lavoratori attraverso il cambiamento e costruire sistemi che premiano un ampio contributo”. “Il nostro obiettivo è quello di mantenere tutti sull’elevatore di AI”, ha concluso la società.