GPT-4.1 è ufficialmente atterrato Nell’API Openi, introducendo un trio di modelli-GPT-4.1, GPT-4.1 Mini e GPT-4.1 Nano-che superano i loro predecessori in quasi ogni dimensione. Questi modelli sono progettati per gli sviluppatori che necessitano di migliori capacità di codifica, un’istruzione più forte e una massiccia comprensione del contesto lungo, il tutto riducendo latenza e il costo. Il modello di punta ora supporta fino a 1 milione di token di contesto e presenta un nuovo taglio della conoscenza del giugno 2024.
Cosa c’è di nuovo con GPT-4.1?
La famiglia GPT-4.1 è un aggiornamento diretto su GPT-4O e GPT-4.5, offrendo prestazioni migliorate attraverso i parametri di riferimento, ottimizzando l’ottimizzazione per l’uso degli sviluppatori del mondo reale. GPT-4.1 segna il 54,6% su SWe-Bench verificatorendendolo uno dei modelli migliori per le attività di codifica. Su scala MultiChallenge Benchmarkvede un miglioramento assoluto del 10,5% rispetto a GPT-4O nelle istruzioni seguenti. Per compiti a lungo termine, stabilisce un nuovo punteggio all’avanguardia del 72% sul Video-Mme Benchmark.
I modelli sono anche ottimizzati attraverso la curva di latenza. GPT-4.1 Mini offre quasi le stesse prestazioni di GPT-4O mentre taglia la latenza a metà e riducendo i costi dell’83%. GPT-4.1 Nano è il modello più veloce e accessibile di Openai, costruito per le attività di classificazione e complessi automatici, pur supportando 1 milione di finestre di contesto token.
Le funzionalità di codifica fanno un salto
Dalla generazione di interfacce frontend più pulite ai seguenti formati Diff in modo più affidabile, GPT-4.1 si dimostra un assistente di codifica altamente capace. Sul punto di riferimento verificato con panca SWE, completa correttamente oltre la metà delle attività, dal 33,2% con GPT-4O. Supera anche GPT-4O e persino GPT-4.5 sul benchmark Polyglot Diff di Aider, offrendo agli sviluppatori modifiche precise su più linguaggi di programmazione senza riscrivere interi file. Per le riscrive a livello di file, i limiti di token di output sono stati ampliati a 32.768 token.
Nei confronti interni, i siti Web GPT-4.1 erano preferiti l’80% delle volte rispetto alle uscite di GPT-4O. Le modifiche estranee nel codice sono scese dal 9% al solo 2%, riflettendo una migliore comprensione del contesto e utilizzo dello strumento.
I primi utenti evidenziano le vittorie del mondo reale
Windsurf ha registrato un miglioramento del 60% nei benchmark interni, mentre Qodo ha scoperto che GPT-4.1 ha fornito migliori suggerimenti nel 55% delle richieste di tiro GitHub. Questi miglioramenti si traducono direttamente in una migliore accuratezza della revisione del codice, meno suggerimenti inutili e cicli di iterazione più veloci per i team.
Istruzioni più nitide che seguono gli scenari
GPT-4.1 funziona in modo significativamente migliore nell’affidabilità delle istruzioni. Segna l’87,4% su Ifeval e il 38% sul benchmark MultiChallenge, mostrando guadagni nella gestione di formati complessi, rifiutando le istruzioni proibite e ordinamento o classificazione. La valutazione di Openai ha mostrato che GPT-4.1 è più preciso su istruzioni concrete e meglio nel monitoraggio delle istruzioni multi-turn, una caratteristica essenziale per la costruzione di sistemi di conversazione affidabili.
Blue J ed Hex hanno testato entrambi GPT-4.1 contro compiti specifici del dominio. Blue J ha registrato un miglioramento della precisione del 53% negli scenari fiscali complessi, mentre HEX ha riportato quasi il doppio delle prestazioni in compiti SQL, riducendo il debug di debug e migliorando la lettura della produzione.
1 milione di finestre di contesto token imposta una nuova barra
Tutti e tre i modelli nella famiglia GPT-4.1 ora supportano fino a 1 milione di token di contesto, oltre 8 volte la base di codice React. Ciò consente potenti nuovi casi d’uso nell’analisi dei documenti legali, nella ricerca finanziaria e nei flussi di lavoro software a lungo termine. Nel test “Needle in a Haystack” di Openi, GPT-4.1 ha recuperato in modo affidabile contenuti pertinenti indipendentemente da dove apparve nell’input.
Il benchmark OpenAI-MRCR ha ulteriormente confermato questo testando la capacità del modello di distinguere tra istruzioni quasi identiche sparse attraverso una finestra di contesto enorme. Sul punto di riferimento dei grafici, che prevede il ragionamento tra i nodi in un grafico sintetico, GPT-4.1 ha segnato il 62%, significativamente davanti al 42%di GPT-4O.
Thomson Reuters ha riportato un aumento del 17% nell’accuratezza della revisione legale dei documenti utilizzando GPT-4.1 nel suo sistema di Cocounsel, mentre Carlyle ha registrato un miglioramento del 50% nell’estrazione di dati finanziari granulari da file complessi.
GPT-4.5 Outumans umani in nuovi test
Un’inferenza più veloce e una migliore comprensione dell’immagine
Openi ha ridotto il tempo al primo token usando miglioramenti nel suo stack di inferenza. GPT-4.1 Nano risponde in meno di cinque secondi su istruzioni da 128k-token. Per compiti multimodali, GPT-4.1 Mini mostra una più forte comprensione dell’immagine rispetto a GPT-4O attraverso parametri di riferimento come MMMU e MathVista.
Su parametri visivi come il ragionamento di Charxiv e il video-MME, GPT-4.1 conduce costantemente, segnando il 72% su quest’ultimo senza sottotitoli. Questo lo rende una scelta migliore per la comprensione video e l’interpretazione scientifica per la carta.
Tut di prezzo e piani di transizione
Tutti e tre i modelli GPT-4.1 sono ora disponibili nell’API, con un significativo calo dei prezzi. GPT-4.1 è più economico del 26% per le query mediane rispetto a GPT-4O. Gli sconti rapidi di memorizzazione nella cache sono aumentati al 75%e non ci sono costi aggiuntivi per gli input a contesto lungo. L’anteprima GPT-4.5 sarà deprecata entro il 14 luglio 2025, a favore della famiglia GPT-4.1 più efficiente.
I prezzi per 1 m di token per GPT-4.1 sono impostati a $ 2 per input, $ 0,50 per input memorizzato nella cache e $ 8 per l’output. GPT-4.1 Nano fa cadere quelli rispettivamente a $ 0,10, $ 0,025 e $ 0,40, rendendolo l’opzione più conveniente fino ad oggi.