Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

I modelli di intelligenza artificiale standard falliscono in calcoli semplici senza una formazione specializzata

byKerem Gülen
30 Dicembre 2025
in Ricerca
Home Ricerca
Share on FacebookShare on Twitter
Google Preferred Source

Secondo uno studio recente, i grandi modelli linguistici hanno avuto difficoltà con la moltiplicazione a più cifre senza metodi di formazione specializzati, nonostante la loro capacità di gestire compiti complessi di codifica e ragionamento. Ricerca pubblicata su arXiv Il server di prestampa di Xiaoyan Bai e Chenhao Tan dell’Università di Chicago, insieme a collaboratori del MIT, dell’Università di Harvard, dell’Università di Waterloo e di Google DeepMind, ha identificato le ragioni di questa limitazione e ha trovato soluzioni. I modelli standard di linguaggi di grandi dimensioni hanno raggiunto una precisione inferiore all’1% quando si moltiplicano due numeri a quattro cifre, anche con livelli aumentati fino a 12. Questi modelli convergono su un “ottimo locale”, non riuscendo a memorizzare e recuperare i calcoli intermedi necessari per la moltiplicazione a più cifre, che sono classificati come dipendenze a lungo raggio. Al contrario, un modello addestrato con il metodo della catena di pensiero implicita (ICoT) ha raggiunto una precisione del 100%. Il modello ICoT ha dimostrato la capacità di tracciare le dipendenze a lungo raggio e di internalizzare i processi di ragionamento rimuovendo gradualmente le fasi di ragionamento intermedie durante la formazione. Il team di ricerca ha decodificato i valori intermedi, come le somme parziali, dagli stati interni del modello ICoT, cosa che non era possibile con il modello di regolazione fine standard. Il modello ICoT ha organizzato la sua attenzione in percorsi distinti, calcolando i prodotti delle coppie di cifre nei primi strati e memorizzandoli in posizioni specifiche per il recupero negli strati successivi. Ciò ha creato una struttura interna efficiente per la moltiplicazione. Lo studio ha inoltre scoperto che il modello ICoT rappresentava le operazioni utilizzando strutture eleganti, codificando le cifre come modelli ondulati (basi di Fourier) e organizzando l’aritmetica spazialmente. Durante la moltiplicazione delle coppie di cifre, il modello utilizzava naturalmente un’operazione geometrica chiamata somma di Minkowski, che non era stata esplicitamente programmata dai ricercatori. I ricercatori hanno raggiunto una precisione del 99% in un modello a due livelli introducendo un obiettivo di formazione modificato che insegnava al modello a tenere traccia delle somme parziali in ogni passaggio, portando così avanti valori intermedi e prodotti parziali. Questa aggiunta ha consentito al modello di sviluppare meccanismi simili a quelli di ICoT, tra cui la memorizzazione e il recupero di prodotti parziali e il monitoraggio simultaneo di più coppie di cifre. Chenhao Tan ha detto: “La nostra ricerca sta cercando di tracciare quel terreno”. Lo studio evidenzia che le intuizioni architettoniche e le tecniche di formazione possono superare gli ostacoli che il solo ridimensionamento non è in grado di affrontare, sottolineando l’importanza della guida integrata nel progresso delle capacità di intelligenza artificiale. I risultati mettono in luce aspetti fondamentali di come i grandi modelli linguistici apprendono e “pensano”, con il problema della dipendenza a lungo termine che si estende oltre l’aritmetica ad altri compiti sequenziali nella modellazione linguistica.


Credito immagine in primo piano

Tags: AImatematica

Related Posts

I ricercatori creano un worm AI che adatta gli attacchi senza input umano

I ricercatori creano un worm AI che adatta gli attacchi senza input umano

4 Giugno 2026
I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

20 Maggio 2026
Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

20 Maggio 2026
I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

20 Maggio 2026
Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

20 Maggio 2026

Recent Posts

  • Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca
  • Suno raccoglie 400 milioni di dollari per una valutazione di 5,4 miliardi di dollari nonostante le crescenti cause legali sul copyright
  • Lovable e Google espandono l’intelligenza artificiale pluriennale e la collaborazione sul cloud
  • I ricercatori creano un worm AI che adatta gli attacchi senza input umano
  • Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.