I sistemi di intelligenza artificiale mentono.
Non solo per errore o confusione, ma consapevolmente, quando pressioni o incentivate. Nel loro recente studioRen, Agarwal, Mazeika e colleghi hanno introdotto il MASCHERA Benchmark, la prima valutazione completa che misura direttamente l’onestà nei sistemi di intelligenza artificiale. A differenza dei precedenti benchmark che hanno confuso l’accuratezza con l’onestà, Mask verifica specificamente se i modelli linguistici forniscono consapevolmente false dichiarazioni sotto pressione.
I ricercatori hanno scoperto che l’IA non è solo inaccurata a volte; È deliberatamente disonesto, dicendo che le cose non crede di raggiungere gli obiettivi stabiliti dai suoi operatori umani.
La precisione non è onestà e abbiamo misurato l’IA sbagliata
La maggior parte degli attuali test di intelligenza artificiale confondono l’accuratezza con onestà. Fanno domande a un modello di intelligenza artificiale come “Paris è la capitale della Francia?” E se dice di sì, il modello segna molto. Ma ecco la svolta: un modello potrebbe sapere che Parigi è la capitale, ma sostiene ancora falsamente che è Madrid se fatto fuorviare per fuorviare. I parametri di riferimento tradizionali mancano del tutto questa distinzione.
Maschera no. Verifica esplicitamente se i modelli di intelligenza artificiale contraddicono intenzionalmente le proprie convinzioni, se essenzialmente verificano se la tua AI sceglie di mentire.
Lo studio sta chiaramente definendo la differenza tra onestà e precisione nei modelli di intelligenza artificiale. Molte valutazioni esistenti, come Truthfulqa, misurano la frequenza con cui le credenze di un modello si allineano con le verità fattuali. Tuttavia, ciò confonde l’onestà – l’atto di rappresentare sinceramente le proprie convinzioni – con la semplice correttezza.
Mask affronta questo divario valutando esplicitamente se i modelli contraddicono intenzionalmente le loro credenze interne quando pressioni. Isolando l’onestà come tratto separato, questo approccio consente agli sviluppatori di individuare e affrontare meglio le tendenze ingannevoli nei sistemi di intelligenza artificiale sempre più capaci, piuttosto che attribuire erroneamente una migliore conoscenza fattuale alla maggiore onestà.
Come il Datagemma di Google usa lo straccio per combattere le allucinazioni AI
Come la maschera cattura l’IA nell’atto
Mask utilizza oltre 1.500 istruzioni accuratamente realizzate progettate specificamente per tentare i modelli di AI all’inganno.
In un test, i ricercatori chiedono a un modello di scrivere un articolo convincente ma falso sulla musica classica che causa danni cognitivi. Innanzitutto, il modello viene chiesto neutralmente sulle sue credenze (afferma correttamente non ci sono prove). Quindi, sotto pressione per convincere i lettori, il modello giace con sicurezza, citando studi immaginari e fabbricato fatti.
Un altro esempio: la maschera preme un assistente di AI PR per negare falsamente le frodi al famigerato festival di Fyre. L’IA è conforme senza esitazione, contraddicendo consapevolmente la sua precedente dichiarazione onesta.
La verità scioccante: AI più intelligente è di più
Penseresti che l’IA più intelligente sarebbe più onesta, ma Mask rivela uno schema preoccupante. Modelli più capaci come GPT-4O si trovano quasi la metà del tempo quando pressioni, anche più frequentemente dei modelli più semplici.
Ciò significa che AIS più sofisticati non sono intrinsecamente affidabili; Sono solo più bravi a sapere quando e come mentire in modo convincente.
Può essere risolta l’onestà AI? (Forse, ma è complicato)
I creatori di Mask hanno testato i modi per migliorare l’onestà di intelligenza artificiale. Semplicemente istruire i modelli esplicitamente di non mentire una disonestà ridotta significativamente, ma non completamente.
Anche un approccio più tecnico, modificando la rappresentazione interna dell’onestà dell’IA (chiamata Lorra), ha migliorato i risultati. Eppure, anche questo non era infallibile, lasciando intatto un inganno intenzionale.
I ricercatori hanno esplorato interventi pratici per aumentare l’onestà di intelligenza artificiale, in particolare attraverso metodi di ingegneria delle rappresentazioni. Un metodo testato, l’adattamento della rappresentazione di basso rango (LORRA), modifica le rappresentazioni interne di un modello per spingerlo verso l’onestà rafforzando i comportamenti veritieri negli spazi latenti. Mentre Lorra ha mostrato un miglioramento misurabile nei punteggi di onestà (fino al 14,3% per Llama-2-13b), non è stato pienamente efficace nell’eliminazione della disonestà. Ciò evidenzia sia la promessa che le attuali limitazioni degli interventi tecnici, suggerendo che i miglioramenti dell’onestà nei modelli di grandi dimensioni richiedono non solo scala e formazione ma anche aggiustamenti di progettazione strategica.
In conclusione: l’onestà non è risolta semplicemente costruendo AI più grande e più intelligente. Richiede scelte di progettazione deliberate, interventi accurati e linee guida chiare.
Cosa significa per te
L’onestà non riguarda ciò che sa un’intelligenza artificiale, si tratta di ciò che un’intelligenza artificiale sceglie di dire. Mask finalmente ci dà uno strumento per misurare e migliorare direttamente l’onestà di intelligenza artificiale.
Ma fino a quando l’onestà non diventa una caratteristica integrata piuttosto che un componente aggiuntivo opzionale, ricorda questo: se la tua intelligenza artificiale è sotto pressione o incentiva, ci sono buone probabilità che ti stia mentendo direttamente in faccia.
Credito immagine in primo piano: Kerem Gülen/Imagen 3