Secondo i test condotti da un ingegnere del software ed ex ricercatore quantitativo, l'ultimo modello di OpenAI ha dimostrato una capacità inaspettata nel risolvere problemi matematici di alto livello Neel Somani. Somani ha osservato che il modello genera una soluzione completa dopo 15 minuti di elaborazione di un problema in ChatGPT, formalizzando successivamente la dimostrazione con lo strumento Harmonic, confermandone l'accuratezza. Ha dichiarato di voler stabilire una base per la capacità dei modelli linguistici di grandi dimensioni (LLM) di risolvere problemi matematici aperti. La catena di pensiero del modello invocava assiomi matematici tra cui la formula di Legendre, il postulato di Bertrand e il teorema della Stella di David. Ha individuato un post di Math Overflow del 2013 del matematico di Harvard Noam Elkies, che offriva una soluzione a un problema simile, ma la dimostrazione finale di ChatGPT differiva e forniva una soluzione più completa a una versione di un problema posto dal matematico Paul Erdős. Dal rilascio di GPT 5.2, che Somani ha descritto come “aneddoticamente più abile nel ragionamento matematico rispetto alle iterazioni precedenti”, un volume crescente di problemi risolti ha sollevato domande sulla capacità degli LLM di far avanzare la conoscenza umana. Somani si è concentrato sui problemi di Erdős, una raccolta di oltre 1.000 congetture gestite online, che variano per argomento e difficoltà. Le prime soluzioni autonome a questi problemi sono emerse a novembre da AlphaEvolve, un modello basato su Gemini. Più recentemente, Somani e altri hanno scoperto che GPT 5.2 è abile nella matematica di alto livello. Da dicembre, 15 problemi sul sito web di Erdős sono passati da “aperti” a “risolti”, con 11 soluzioni che accreditano modelli di intelligenza artificiale. Il matematico Terence Tao, sul suo Pagina GitHubha rilevato otto problemi in cui i modelli di intelligenza artificiale hanno compiuto progressi significativi e autonomi e sei casi in cui i progressi hanno comportato l'individuazione e lo sviluppo di ricerche precedenti. Tao ha ipotizzato su Mastodon che la natura scalabile dei sistemi di intelligenza artificiale li rende “più adatti per essere applicati sistematicamente alla 'coda lunga' degli oscuri problemi di Erdős, molti dei quali in realtà hanno soluzioni semplici”, aggiungendo che “molti di questi problemi di Erdős più facili hanno ora maggiori probabilità di essere risolti con metodi puramente basati sull'intelligenza artificiale che con mezzi umani o ibridi”. Una forza trainante in questo progresso è uno spostamento verso la formalizzazione, un processo ad alta intensità di lavoro per verificare ed estendere il ragionamento matematico. Pur non richiedendo l’intelligenza artificiale, i nuovi strumenti automatizzati hanno semplificato questo processo. L'assistente di prova open source Lean, sviluppato presso Microsoft Research nel 2013, ha guadagnato ampio utilizzo per formalizzare le dimostrazioni e strumenti di intelligenza artificiale come Aristotele di Harmonic mirano ad automatizzare gran parte di questo lavoro. Tudor Achim, il fondatore di Harmonic, ha affermato che l'impegno di matematici e professori di informatica con gli strumenti di intelligenza artificiale ha più significato del numero di problemi di Erdős risolti. Achim ha detto: “Queste persone hanno una reputazione da proteggere, quindi quando dicono di usare Aristotele o di usare ChatGPT, questa è una prova reale”.





