Il modello O3 AI di Openi ha ottenuto un punteggio inferiore sul benchmark Frontiermath rispetto alla società inizialmente implicata, secondo i test indipendenti di Epoca ail’Istituto di ricerca dietro Frontiermath. Quando Openai ha svelato O3 a dicembre, ha affermato che il modello potrebbe rispondere al 25% delle domande di Frontiermath, sovraperformando significativamente altri modelli.
I test di Epoch AI lo hanno scoperto O3 Ha segnato circa il 10% su Frontiermath. La discrepanza può essere dovuta a differenze nelle configurazioni dei test o alla versione di O3 utilizzata. Mark Chen, Chief Research Officer di Openai, Mark Chen lo ha affermato O3 ha raggiunto oltre il 25% in “Impostazioni di calcolo aggressive del tempo di prova”. Epoch ha osservato che i risultati di benchmark pubblicati da Openi hanno mostrato un punteggio più basso che corrisponde all’epoca del punteggio del 10% osservata.
Il modello O3 pubblico è “sintonizzato per l’uso di chat/prodotto” e ha livelli di calcolo più piccoli rispetto alla versione testata da Openai a dicembre, secondo la Fondazione ARC Premio, che ha testato una versione pre-release di O3. Openi’s Wenda Zhou spiegato Che il modello di produzione O3 sia “più ottimizzato per i casi d’uso del mondo reale” e velocità, il che può comportare disparità di riferimento.

I modelli O3-Mini-High e O4-Mini di Openi superano O3 su Frontiermath. La società prevede di rilasciare una variante O3 più potente, O3-Pro, nelle prossime settimane. Questo incidente evidenzia la necessità di cautela nell’interpretazione dei parametri di riferimento dell’IA, in particolare quando vengono utilizzati per promuovere prodotti commerciali.
L’industria dell’intelligenza artificiale ha visto di recente diverse controversie di benchmarking. A gennaio, Epoch è stato criticato per non aver rivelato finanziamenti da Openi fino a quando la società non ha annunciato O3. Xai è stato accusato di aver pubblicato grafici di riferimento fuorvianti per il suo modello Grok 3 e Meta ha ammesso di pubblicizzare i punteggi di riferimento per una versione diversa di un modello rispetto a quella disponibile per gli sviluppatori.