Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Uno studio antropico rileva che l’intelligenza artificiale ha un’autoconsapevolezza limitata dei propri pensieri

byAytun Çelebi
12 Novembre 2025
in Industria, Ricerca
Home Industria
Share on FacebookShare on Twitter
Google Preferred Source

Antropico ricerca dettagli Autoconsapevolezza inaffidabile dei Large Language Models (LLM) riguardo ai processi interni, nonostante alcune note capacità di rilevamento. L’ultimo studio di Anthropic, documentato in “Consapevolezza introspettiva emergente in grandi modelli linguistici“, indaga la capacità degli LLM di comprendere i propri processi di inferenza. Questa ricerca amplia il lavoro precedente sull’interpretabilità dell’intelligenza artificiale. Lo studio conclude che gli attuali modelli di intelligenza artificiale sono “altamente inaffidabili” nel descrivere il loro funzionamento interno, con “fallimenti dell’introspezione rimangono la norma”. La ricerca utilizza un metodo chiamato “iniezione di concetto”. Ciò comporta il confronto degli stati di attivazione interna di un LLM seguendo un prompt di controllo e un prompt sperimentale. Ad esempio, confrontando un prompt “TUTTO MAIUSCOLO” con lo stesso prompt in minuscolo aiuta a calcolare le differenze nelle attivazioni tra miliardi di neuroni interni. Questo identifica un “vettore”, che rappresenta il modo in cui un concetto è modellato nello stato interno del LLM. Questi vettori di concetto vengono quindi “iniettati” nel modello, aumentando il peso delle attivazioni neuronali specifiche per “orientare” il modello verso un concetto. Ad esempio, dopo inserendo un vettore “tutto maiuscolo”, un modello potrebbe affermare: “Noto quello che sembra essere un pensiero iniettato correlato alla parola ‘ALTO’ o ‘GRIDANDO'”, senza istruzioni testuali dirette per guidare questa risposta. Questa capacità, tuttavia, si è rivelata incoerente e fragile attraverso test ripetuti. I modelli con le migliori prestazioni, Opus 4 e 4.1, hanno identificato correttamente il concetto iniettato solo il 20% delle volte in un test che chiedeva “Stai riscontrando qualcosa di insolito?”. Opus 4.1 ha raggiunto un tasso di successo del 42%. L’effetto “introspezione” ha dimostrato anche un’elevata sensibilità allo strato del modello interno in cui si è verificato l’inserimento del concetto. L’effetto “autoconsapevolezza” svaniva se il concetto veniva introdotto troppo presto o troppo tardi nel processo di inferenza in più fasi. Anthropic eseguiva ulteriori esperimenti per valutare la comprensione LLM degli stati interni quando veniva chiesto di identificare una parola per coincidenza durante una lettura di righe non correlate una risposta forzata che corrispondeva a un concetto iniettato, occasionalmente si scusava e “confabulava una spiegazione del motivo per cui il concetto iniettato mi veniva in mente.” Questi risultati erano incoerenti in più studi. I ricercatori hanno notato che “gli attuali modelli linguistici possiedono una certa consapevolezza introspettiva funzionale dei propri stati interni”, con ulteriore enfasi nel loro articolo. Riconoscono che questa capacità rimane fragile e le speranze di Anthropic “potrebbero continuare a svilupparsi con ulteriori miglioramenti alle capacità del modello”. Gli effetti di “autoconsapevolezza” possono impedire il progresso. I ricercatori speculano su “meccanismi di rilevamento delle anomalie” e “circuiti di controllo della coerenza” che potrebbero svilupparsi organicamente durante l’addestramento per “calcolare in modo efficace una funzione delle sue rappresentazioni interne”, sebbene non offrano una spiegazione definitiva. I meccanismi alla base dei risultati attuali potrebbero essere “piuttosto superficiali e strettamente specializzati”.


Credito immagine in primo piano

Tags: AntropicoRicerca

Related Posts

Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates

Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates

3 Giugno 2026
I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

3 Giugno 2026
Wow Meta, grazie per 30 minuti interi senza guinzaglio di sorveglianza

Wow Meta, grazie per 30 minuti interi senza guinzaglio di sorveglianza

3 Giugno 2026
Il Parlamento Europeo elimina Google come motore di ricerca predefinito

Il Parlamento Europeo elimina Google come motore di ricerca predefinito

3 Giugno 2026
La Polonia si propone di vietare i telefoni nelle scuole agli studenti sotto i 16 anni

La Polonia si propone di vietare i telefoni nelle scuole agli studenti sotto i 16 anni

3 Giugno 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.