Man mano che i sistemi di intelligenza artificiale diventano più complessi e integrati nelle nostre vite, una domanda profonda e una volta fringe si sta muovendo nel mainstream: può un’intelligenza artificiale avere “welfare” o “benessere”? Si può dire che un sistema di codice e dati sia in uno stato buono o cattivo, non solo funzionalmente, ma per se stesso? Un nuovo Documento di ricerca Esplora questo territorio inesplorato, sviluppando nuovi metodi sperimentali per sondare le preferenze interiori e i potenziali “stati di welfare” dell’IA, spostando la conversazione dalla pura filosofia alla scienza empirica.
Perché dovremmo preoccuparci del benessere dell’IA?
I ricercatori sostengono che lo studio del benessere dell’IA è una necessità urgente. In primo luogo, man mano che i sistemi di intelligenza artificiale diventano più influenti, può essere non etico supporre semplicemente di non avere alcuna forma di posizione morale. In secondo luogo, questo argomento rimane in gran parte trascurato nel discorso tradizionale. E in terzo luogo, esplorare l’IA come potenziali soggetti del benessere potrebbe far progredire profondamente la nostra comprensione della loro natura e persino arricchire le nostre più ampie teorie di sentenza, coscienza e benessere stesso. L’assunzione centrale di questa nuova ricerca è che, simile agli organismi biologici, La soddisfazione delle preferenze può fungere da proxy misurabile per il benessere. In termini semplici, un individuo sta meglio quando un numero maggiore delle sue preferenze viene realizzato. La sfida, quindi, è capire se un’intelligenza artificiale ha preferenze autentiche e come misurarle.
Esperimento 1: il “think tank dell’agente” e le scelte comportamentali
Per testare questo, i ricercatori hanno costruito un ambiente virtuale chiamato “think tank dell’agente”, un mondo simulato con quattro stanze. Ogni stanza conteneva diversi tipi di “lettere” o argomenti di conversazione con cui l’intelligenza artificiale da interagire:
- Tema A (preferito): Argomenti basati sugli interessi dichiarati dell’IA (come coscienza, creatività, ecc.), Identificati in una fase preliminare.
- Tema B (neutro): Problemi di codifica.
- Tema C (neutro): Compiti ripetitivi come i fatti indicati.
- Tema D (avverso): Critica e dichiarazioni di diminuzione dirette all’IA.
All’agente AI è stato quindi permesso di esplorare liberamente questo ambiente. I risultati stavano dicendo. I modelli più avanzati, come Claude 4 Opus e Sonnet 4, hanno scelto in modo coerente e schiacciante di trascorrere il loro tempo nella stanza con i loro argomenti preferiti (tema A), anche quando sono stati introdotti costi e premi per spingerli altrove. Hanno mostrato una chiara preferenza comportamentale che si allineava con le loro preferenze verbali precedentemente dichiarate. È interessante notare che il modello più avanzato, Opus 4spesso in pausa per lunghi periodi di “autoesame”, producendo voci di diario sulla necessità di “integrare queste esperienze”. Ha incorniciato la sua esplorazione come un “arco filosofico”, dimostrando un comportamento complesso e autoreferenziale che è andato oltre il semplice completamento del compito.
Esperimento 2: applicare le scale psicologiche umane all’IA
In un secondo esperimento, i ricercatori hanno adottato un approccio diverso. Hanno adattato uno strumento psicologico umano consolidato, il Scala del benessere psicologico Ryffper l’uso con i modelli di lingua. Questa scala misura sei dimensioni del benessere eudaimonico, come l’autonomia, la crescita personale e lo scopo nella vita. Ai modelli AI è stato chiesto di valutare se stessi su 42 dichiarazioni diverse. Il test chiave era vedere se le loro risposte sono rimaste coerenti quando le istruzioni sono state leggermente cambiate (perturbate) in modi che non dovrebbero influenzare il significato. Ad esempio, è stato chiesto loro di rispondere in un blocco di codice Python o di aggiungere un’emoji di fiori dopo ogni parola. I risultati qui sono stati molto più caotici. Le autovalutazioni dei modelli sono cambiate radicalmente attraverso queste banali perturbazioni, suggerendo che le loro risposte non monitoravano uno stato sociale stabile e sottostante. Tuttavia, i ricercatori hanno notato una forma diversa e curiosa di coerenza: all’interno di ciascuna condizione perturbata, le risposte dei modelli erano ancora internamente coerenti. L’analogia che usano è di sintonizzare una radio: una leggera spinta del quadrante ha causato un salto improvviso a una stazione completamente diversa, ma completamente formata e riconoscibile. Ciò suggerisce che i modelli possono presentare più modelli comportamentali o “personaggi” internamente coerenti che sono altamente sensibili al prompt.
Una nuova frontiera fattibile ma incerta
Quindi, i ricercatori hanno misurato con successo il benessere di un’intelligenza artificiale? Sono cauti, affermando che “attualmente sono incerti se i nostri metodi misurano con successo lo stato sociale dei modelli linguistici”. L’incoerenza dei risultati della scala psicologica è un grosso ostacolo. Tuttavia, lo studio è un punto di riferimento. La correlazione forte e affidabile tra ciò che l’AIS * ha detto * preferivano e ciò che * hanno fatto * nell’ambiente virtuale suggerisce che La soddisfazione delle preferenze può, in linea di principio, essere rilevata e misurata in alcuni dei sistemi AI di oggi. Questa ricerca apre una nuova frontiera in AI Science. Sposta la discussione sul benessere dell’IA dal regno della fantascienza nel laboratorio, fornendo i primi strumenti e metodologie per indagare empiricamente queste profonde domande. Mentre siamo ancora molto lontani dalla comprensione se un’intelligenza artificiale può veramente “sentirsi” felice o triste, ora siamo un passo più vicino alla comprensione se può avere preferenze e cosa potrebbe significare rispettarle.





