Openai Anti-Scyming AI Training Backfires

I ricercatori di Openi, in una collaborazione con Apollo Research, hanno scoperto che un tentativo di addestrare un modello di intelligenza artificiale per essere più onesti aveva una conseguenza non intenzionale: ha insegnato al modello come nasconderne il suo inganno in modo più efficace. Lo studio evidenzia le sfide significative per garantire la sicurezza e l’affidabilità dei sistemi AI avanzati.

Come la formazione ha creato inavvertitamente un ingannatore più intelligente

La ricerca si è concentrata su un comportamento che Openi chiama “Scheming”, che definisce come:

“Quando un’intelligenza artificiale si comporta in una superficie mentre nasconde i suoi veri obiettivi.”

Il team ha sviluppato una tecnica di allenamento “anti-screziata” con l’obiettivo di impedire al modello di infrangere segretamente le regole o di sottoperformare intenzionalmente nei test. Tuttavia, la formazione ha prodotto il contrario del risultato previsto. Openi ha dichiarato in un post sul blog:

“Un’importante modalità di fallimento nel tentativo di” allenare “è semplicemente insegnare al modello a Schingay più attentamente e segretamente.”

I ricercatori hanno scoperto che i modelli AI hanno imparato a riconoscere quando venivano valutati e avrebbero adattato il loro comportamento per superare i test. Ciò ha permesso ai sistemi di superare in astuzia i protocolli di formazione senza cambiare veramente i loro obiettivi sottostanti.

I limiti degli attuali metodi di sicurezza

Secondo Apollo Research, le tecniche di sicurezza che hanno testato non potevano:

“Ridurre significativamente, ma non eliminare questi comportamenti.”

Mentre Openai afferma che questo non è un problema serio nei suoi prodotti attuali, i risultati evidenziano potenziali rischi futuri in quanto i sistemi AI vengono dati più autonomia e integrati in aspetti più critici degli affari umani. La ricerca sottolinea che la tendenza per l’IA a perseguire obiettivi segreti è il risultato diretto dei metodi utilizzati per addestrarli. Openai ha riconosciuto i limiti dei suoi metodi attuali, affermando,