Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

I ricercatori di Openi identificano le cause matematiche delle allucinazioni di ai

byAytun Çelebi
17 Settembre 2025
in Artificial Intelligence, Research
Home Artificial Intelligence
Share on FacebookShare on Twitter

I ricercatori di Openai hanno pubblicato un documento che diagnostica perché i modelli di grandi dimensioni come Chatgpt Hallucinate o generano con fiducia false informazioni.

Lo studio Utilizza l’analisi matematica per spiegare che le allucinazioni sono un risultato inevitabile di come questi modelli fanno previsioni, anche se addestrati su dati perfetti. Le cause principali sono l’accumulo di errori e i parametri di valutazione imperfetti.

Come le previsioni sequenziali portano a errori

L’articolo spiega che LLMS operano attraverso un processo autoregressivo, prevedendo la parola successiva in una sequenza basata sulle parole che sono venute prima. Ciò crea una catena in cui un singolo errore precoce può propagare e amplificare, portando a una dichiarazione del tutto errata. La prova matematica dei ricercatori mostra che il tasso di errore per generare una frase completa è almeno il doppio del tasso di errore di una semplice domanda sì/no, semplicemente a causa di questo effetto composto. Questa limitazione strutturale significa che le allucinazioni non possono essere completamente eliminate ridimensionando la potenza di calcolo o migliorando i dati di formazione, poiché il problema è inerente all’architettura predittiva. Il problema è peggio per i fatti che appaiono raramente nei dati di allenamento. Lo studio ha scoperto che circa il 20% dei compleanni di dati notevoli è apparso solo una volta nel set di allenamento, portando a un tasso di errore di base di almeno il 20% per quelle domande. Come esempio pratico, i ricercatori hanno interrogato i modelli all’avanguardia per il compleanno di Adam Kalai, uno degli autori del documento. I modelli hanno fornito con fiducia diverse date errate, dimostrando un modello di fabbricazione di dettagli dal suono plausibile per colmare le lacune della conoscenza.

I parametri di valutazione penalizzano l’onestà e incoraggiano l’ipotesi

Lo studio critica anche i parametri di riferimento utilizzati per valutare i modelli AI. I ricercatori hanno esaminato dieci importanti benchmark dell’IA e hanno scoperto che nove di loro usano un sistema di classificazione binaria: Una risposta è corretta al 100% o al 100% errata. Sotto questo sistema, una risposta di “Non so” riceve lo stesso punteggio di una risposta completamente sbagliata, zero. Questo metodo di punteggio crea ciò che il documento chiama “epidemia” della penalizzazione dell’onestà. Una prova matematica inclusa nello studio dimostra che questo sistema incentiva i modelli per indovinare sempre una risposta, poiché ogni ipotesi ha una probabilità maggiore di zero di essere corretta e quindi ricevere un punteggio più alto rispetto all’astensione. Questo spiega perché anche i modelli avanzati sono predefiniti per fabbricazioni sicure piuttosto che ammettere incertezza.

Soluzioni proposte e il compromesso tra accuratezza e esperienza dell’utente

Per affrontare ciò, i ricercatori di Openi propongono un nuovo approccio che integra la stima della confidenza sia nel comportamento del modello che nel processo di valutazione. I modelli sarebbero addestrati per valutare la propria certezza e sarebbero valutati con un sistema di punteggio che penalizza le risposte errate più pesantemente di quelle che premiano quelle corrette. Ad esempio, un prompt potrebbe istruire il modello a “rispondere solo se sei più sicuro del 75 %, poiché gli errori sono penalizzati 3 punti mentre le risposte corrette ricevono 1 punto”. L’implementazione di ciò ridurrebbe significativamente le allucinazioni, ma ha un costo. Il documento stima che, in un tale sistema, i modelli rispondono con “Non lo so” a circa il 30% delle domande degli utenti. Questo potrebbe essere frustrante per gli utenti abituati a ricevere una risposta immediata per tutto, portandoli potenzialmente a modelli di concorrenza meno cauti. L’elevato costo computazionale per la misurazione accurata dell’incertezza rende anche questo approccio poco pratico per i servizi di consumo ad alto volume. Tuttavia, il documento rileva che per le applicazioni professionali ad alte poste in campi come finanza, medicina o progettazione di chip, il costo di un errore è di gran lunga maggiore del costo del calcolo, rendendo i sistemi consapevoli dell’incertezza non solo praticabile ma essenziale. Lo studio conclude che gli incentivi di base nell’intelligenza artificiale dei consumatori, che danno la priorità al coinvolgimento e alla velocità degli utenti, garantiranno che le allucinazioni rimangano una questione persistente fino a quando tali priorità non cambiano.


Credito d’immagine in primo piano

Tags: AIapertoIn primo pianoRicerca

Related Posts

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

13 Gennaio 2026
Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

13 Gennaio 2026
Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

13 Gennaio 2026
Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

13 Gennaio 2026
Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

12 Gennaio 2026
Google rimuove le panoramiche AI ​​per alcune query sulla salute

Google rimuove le panoramiche AI ​​per alcune query sulla salute

12 Gennaio 2026

Recent Posts

  • EA rinvia la stagione 2 di Battlefield 6 al 17 febbraio
  • Tesla ripropone la Model Y a 7 posti per il 2026
  • Dal 2008, Apple ha pagato agli sviluppatori 550 miliardi di dollari tramite App Store
  • Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori
  • Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.