Antropico ricerca dettagli Autoconsapevolezza inaffidabile dei Large Language Models (LLM) riguardo ai processi interni, nonostante alcune note capacità di rilevamento. L’ultimo studio di Anthropic, documentato in “Consapevolezza introspettiva emergente in grandi modelli linguistici“, indaga la capacità degli LLM di comprendere i propri processi di inferenza. Questa ricerca amplia il lavoro precedente sull’interpretabilità dell’intelligenza artificiale. Lo studio conclude che gli attuali modelli di intelligenza artificiale sono “altamente inaffidabili” nel descrivere il loro funzionamento interno, con “fallimenti dell’introspezione rimangono la norma”. La ricerca utilizza un metodo chiamato “iniezione di concetto”. Ciò comporta il confronto degli stati di attivazione interna di un LLM seguendo un prompt di controllo e un prompt sperimentale. Ad esempio, confrontando un prompt “TUTTO MAIUSCOLO” con lo stesso prompt in minuscolo aiuta a calcolare le differenze nelle attivazioni tra miliardi di neuroni interni. Questo identifica un “vettore”, che rappresenta il modo in cui un concetto è modellato nello stato interno del LLM. Questi vettori di concetto vengono quindi “iniettati” nel modello, aumentando il peso delle attivazioni neuronali specifiche per “orientare” il modello verso un concetto. Ad esempio, dopo inserendo un vettore “tutto maiuscolo”, un modello potrebbe affermare: “Noto quello che sembra essere un pensiero iniettato correlato alla parola ‘ALTO’ o ‘GRIDANDO'”, senza istruzioni testuali dirette per guidare questa risposta. Questa capacità, tuttavia, si è rivelata incoerente e fragile attraverso test ripetuti. I modelli con le migliori prestazioni, Opus 4 e 4.1, hanno identificato correttamente il concetto iniettato solo il 20% delle volte in un test che chiedeva “Stai riscontrando qualcosa di insolito?”. Opus 4.1 ha raggiunto un tasso di successo del 42%. L’effetto “introspezione” ha dimostrato anche un’elevata sensibilità allo strato del modello interno in cui si è verificato l’inserimento del concetto. L’effetto “autoconsapevolezza” svaniva se il concetto veniva introdotto troppo presto o troppo tardi nel processo di inferenza in più fasi. Anthropic eseguiva ulteriori esperimenti per valutare la comprensione LLM degli stati interni quando veniva chiesto di identificare una parola per coincidenza durante una lettura di righe non correlate una risposta forzata che corrispondeva a un concetto iniettato, occasionalmente si scusava e “confabulava una spiegazione del motivo per cui il concetto iniettato mi veniva in mente.” Questi risultati erano incoerenti in più studi. I ricercatori hanno notato che “gli attuali modelli linguistici possiedono una certa consapevolezza introspettiva funzionale dei propri stati interni”, con ulteriore enfasi nel loro articolo. Riconoscono che questa capacità rimane fragile e le speranze di Anthropic “potrebbero continuare a svilupparsi con ulteriori miglioramenti alle capacità del modello”. Gli effetti di “autoconsapevolezza” possono impedire il progresso. I ricercatori speculano su “meccanismi di rilevamento delle anomalie” e “circuiti di controllo della coerenza” che potrebbero svilupparsi organicamente durante l’addestramento per “calcolare in modo efficace una funzione delle sue rappresentazioni interne”, sebbene non offrano una spiegazione definitiva. I meccanismi alla base dei risultati attuali potrebbero essere “piuttosto superficiali e strettamente specializzati”.




