I ricercatori di Openi identificano le cause matematiche delle allucinazioni di ai

I ricercatori di Openai hanno pubblicato un documento che diagnostica perché i modelli di grandi dimensioni come Chatgpt Hallucinate o generano con fiducia false informazioni.

Lo studio Utilizza l’analisi matematica per spiegare che le allucinazioni sono un risultato inevitabile di come questi modelli fanno previsioni, anche se addestrati su dati perfetti. Le cause principali sono l’accumulo di errori e i parametri di valutazione imperfetti.

Come le previsioni sequenziali portano a errori

L’articolo spiega che LLMS operano attraverso un processo autoregressivo, prevedendo la parola successiva in una sequenza basata sulle parole che sono venute prima. Ciò crea una catena in cui un singolo errore precoce può propagare e amplificare, portando a una dichiarazione del tutto errata. La prova matematica dei ricercatori mostra che il tasso di errore per generare una frase completa è almeno il doppio del tasso di errore di una semplice domanda sì/no, semplicemente a causa di questo effetto composto. Questa limitazione strutturale significa che le allucinazioni non possono essere completamente eliminate ridimensionando la potenza di calcolo o migliorando i dati di formazione, poiché il problema è inerente all’architettura predittiva. Il problema è peggio per i fatti che appaiono raramente nei dati di allenamento. Lo studio ha scoperto che circa il 20% dei compleanni di dati notevoli è apparso solo una volta nel set di allenamento, portando a un tasso di errore di base di almeno il 20% per quelle domande. Come esempio pratico, i ricercatori hanno interrogato i modelli all’avanguardia per il compleanno di Adam Kalai, uno degli autori del documento. I modelli hanno fornito con fiducia diverse date errate, dimostrando un modello di fabbricazione di dettagli dal suono plausibile per colmare le lacune della conoscenza.

I parametri di valutazione penalizzano l’onestà e incoraggiano l’ipotesi

Lo studio critica anche i parametri di riferimento utilizzati per valutare i modelli AI. I ricercatori hanno esaminato dieci importanti benchmark dell’IA e hanno scoperto che nove di loro usano un sistema di classificazione binaria: Una risposta è corretta al 100% o al 100% errata. Sotto questo sistema, una risposta di “Non so” riceve lo stesso punteggio di una risposta completamente sbagliata, zero. Questo metodo di punteggio crea ciò che il documento chiama “epidemia” della penalizzazione dell’onestà. Una prova matematica inclusa nello studio dimostra che questo sistema incentiva i modelli per indovinare sempre una risposta, poiché ogni ipotesi ha una probabilità maggiore di zero di essere corretta e quindi ricevere un punteggio più alto rispetto all’astensione. Questo spiega perché anche i modelli avanzati sono predefiniti per fabbricazioni sicure piuttosto che ammettere incertezza.

Soluzioni proposte e il compromesso tra accuratezza e esperienza dell’utente

Per affrontare ciò, i ricercatori di Openi propongono un nuovo approccio che integra la stima della confidenza sia nel comportamento del modello che nel processo di valutazione. I modelli sarebbero addestrati per valutare la propria certezza e sarebbero valutati con un sistema di punteggio che penalizza le risposte errate più pesantemente di quelle che premiano quelle corrette. Ad esempio, un prompt potrebbe istruire il modello a “rispondere solo se sei più sicuro del 75 %, poiché gli errori sono penalizzati 3 punti mentre le risposte corrette ricevono 1 punto”. L’implementazione di ciò ridurrebbe significativamente le allucinazioni, ma ha un costo. Il documento stima che, in un tale sistema, i modelli rispondono con “Non lo so” a circa il 30% delle domande degli utenti. Questo potrebbe essere frustrante per gli utenti abituati a ricevere una risposta immediata per tutto, portandoli potenzialmente a modelli di concorrenza meno cauti. L’elevato costo computazionale per la misurazione accurata dell’incertezza rende anche questo approccio poco pratico per i servizi di consumo ad alto volume. Tuttavia, il documento rileva che per le applicazioni professionali ad alte poste in campi come finanza, medicina o progettazione di chip, il costo di un errore è di gran lunga maggiore del costo del calcolo, rendendo i sistemi consapevoli dell’incertezza non solo praticabile ma essenziale. Lo studio conclude che gli incentivi di base nell’intelligenza artificiale dei consumatori, che danno la priorità al coinvolgimento e alla velocità degli utenti, garantiranno che le allucinazioni rimangano una questione persistente fino a quando tali priorità non cambiano.

Credito d’immagine in primo piano

Tags: AI aperto In primo piano Ricerca

I ricercatori di Openi identificano le cause matematiche delle allucinazioni di ai

Related Posts

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Google rimuove le panoramiche AI per alcune query sulla salute

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

I ricercatori di Openi identificano le cause matematiche delle allucinazioni di ai

Come le previsioni sequenziali portano a errori

I parametri di valutazione penalizzano l’onestà e incoraggiano l’ipotesi

Soluzioni proposte e il compromesso tra accuratezza e esperienza dell’utente

Related Posts

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Google rimuove le panoramiche AI ​​per alcune query sulla salute

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Google rimuove le panoramiche AI per alcune query sulla salute