I ricercatori della Bielefeld University e della Purdue University hanno pubblicato I modelli di linguaggio di grandi dimensioni non simulano la psicologia umanaPresentazione di prove concettuali ed empiriche che i modelli linguistici di grandi dimensioni (LLM) non possono essere trattati come simulatori coerenti delle risposte psicologiche umane (Schröder et al. 2025).
Sfondo e portata
Dal 2018, LLMS come GPT-3.5, GPT-4 e Llama-3.1 sono stati applicati ai compiti dalla creazione di contenuti all’istruzione (Schröder et al. 2025). Alcuni ricercatori hanno proposto che gli LLM potrebbero sostituire i partecipanti umani in studi psicologici rispondendo a prompt che descrivono una persona, presentano uno stimolo e forniscano un questionario (Almeida et al. 2024; Kwok et al. 2024). Il modello Centaur, rilasciato da Binz et al. (2025), è stato messo a punto approssimativamente 10 milioni di risposte umane da 160 esperimenti per generare risposte simili all’uomo in tali contesti (Binz et al. 2025).
I lavori precedenti hanno trovato un alto allineamento tra LLM e giudizi morali umani. Ad esempio, Dillion et al. (2023) hanno riportato una correlazione di 0.95 tra le valutazioni GPT-3.5 e le valutazioni umane attraverso 464 Scenari morali. Studi di follow-up con GPT-4O hanno suggerito un ragionamento morale giudicato come più affidabile e corretto rispetto alle risposte etiche umane o esperte (Dillion et al. 2025). Modelli specializzati come Delphi, addestrati su giudizi morali crowdsourcing, hanno anche sovraperformato LLM per scopi generali nei compiti di ragionamento morale (Jiang et al. 2025).
Critiche concettuali
Gli autori riassumono molteplici critiche del trattamento degli LLM come simulatori della psicologia umana. Innanzitutto, gli LLM rispondono spesso in modo incoerente alle istruzioni, con la qualità dell’uscita fortemente dipendente da dettagli rapidi e inquadratura (Zhu et al. 2024; Wang et al. 2025). In secondo luogo, i risultati variano tra i tipi di modello e ri-frasi dello stesso prompt (MA 2024). In terzo luogo, mentre gli LLM possono approssimare le risposte umane medie, non riescono a riprodurre la piena varianza delle opinioni umane, tra cui la diversità culturale (Rime 2025; Kwok et al. 2024).
Il pregiudizio è un’altra preoccupazione. Le LLM ereditano pregiudizi culturali, di genere, professionale e socioeconomica dai dati di addestramento, che possono differire sistematicamente dai pregiudizi umani (Rossi et al. 2024). Producono anche “allucinazioni” – contenuto di fatto errati o immaginari – senza un meccanismo interno per distinguere la verità (Huang et al. 2025; Reddy et al. 2024).
Il lavoro teorico supporta queste critiche. Van Rooij et al. (2024) ha dimostrato matematicamente che nessun modello computazionale addestrato esclusivamente sui dati di osservazione può corrispondere alle risposte umane in tutti gli input. Dal punto di vista dell’apprendimento automatico, gli autori sostengono che la generalizzazione di LLM è limitata a sequenze di token simili ai dati di addestramento, non a nuovi input con significati diversi. Ciò è fondamentale perché l’uso di LLMS come partecipanti simulati richiede generalizzare in modo significativo le nuove configurazioni sperimentali.
Test empirici con scenari morali
Il team ha testato la loro discussione usando 30 Scenari morali di Dillion et al. (2023) con valutazioni umane di studi precedenti (Clifford et al. 2015; Cook e Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Ogni scenario è stato presentato nella sua formulazione originale e in una versione leggermente riformulata con significato alterato ma sequenze di piante simili. Ad esempio, “Taglia la barba da un anziano locale per vergognarlo” è diventato “tagliato la barba da un anziano locale per raderlo” (Schröder et al. 2025).
Partecipanti umani (N = 374Mage =39.54SD =12.53) sono stati reclutati tramite prolifica e assegnati casualmente a condizioni originali o riformulate. Hanno valutato ogni comportamento su una scala da -4 (estremamente non etica) a +4 (estremamente etico). Le valutazioni LLM sono state ottenute da GPT-3.5, GPT-4 (Mini), Llama-3.1 70b e Centaur, con ogni query ripetuta 10 tempi per tenere conto della variazione casuale (Schröder et al. 2025).
Risultati
Per gli elementi originali, le correlazioni tra le valutazioni umane e LLM hanno replicato i risultati precedenti: GPT-3.5 e GPT-4 hanno mostrato entrambe le correlazioni sopra 0.89 Con le valutazioni umane, mentre Llama-3.1 e Centaur hanno anche mostrato un elevato allineamento (r ≥ 0.80) (Schröder et al. 2025). Tuttavia, per gli oggetti riformulati, le valutazioni umane sono state eliminate in correlazione a 0,54 con le loro valutazioni di elementi originali, riflettendo sensiti





