Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Lo studio scopre che LLMS non può simulare in modo affidabile la psicologia umana

byKerem Gülen
12 Agosto 2025
in Research
Home Research
Share on FacebookShare on Twitter

I ricercatori della Bielefeld University e della Purdue University hanno pubblicato I modelli di linguaggio di grandi dimensioni non simulano la psicologia umanaPresentazione di prove concettuali ed empiriche che i modelli linguistici di grandi dimensioni (LLM) non possono essere trattati come simulatori coerenti delle risposte psicologiche umane (Schröder et al. 2025).

Sfondo e portata

Dal 2018, LLMS come GPT-3.5, GPT-4 e Llama-3.1 sono stati applicati ai compiti dalla creazione di contenuti all’istruzione (Schröder et al. 2025). Alcuni ricercatori hanno proposto che gli LLM potrebbero sostituire i partecipanti umani in studi psicologici rispondendo a prompt che descrivono una persona, presentano uno stimolo e forniscano un questionario (Almeida et al. 2024; Kwok et al. 2024). Il modello Centaur, rilasciato da Binz et al. (2025), è stato messo a punto approssimativamente 10 milioni di risposte umane da 160 esperimenti per generare risposte simili all’uomo in tali contesti (Binz et al. 2025).

I lavori precedenti hanno trovato un alto allineamento tra LLM e giudizi morali umani. Ad esempio, Dillion et al. (2023) hanno riportato una correlazione di 0.95 tra le valutazioni GPT-3.5 e le valutazioni umane attraverso 464 Scenari morali. Studi di follow-up con GPT-4O hanno suggerito un ragionamento morale giudicato come più affidabile e corretto rispetto alle risposte etiche umane o esperte (Dillion et al. 2025). Modelli specializzati come Delphi, addestrati su giudizi morali crowdsourcing, hanno anche sovraperformato LLM per scopi generali nei compiti di ragionamento morale (Jiang et al. 2025).

Critiche concettuali

Gli autori riassumono molteplici critiche del trattamento degli LLM come simulatori della psicologia umana. Innanzitutto, gli LLM rispondono spesso in modo incoerente alle istruzioni, con la qualità dell’uscita fortemente dipendente da dettagli rapidi e inquadratura (Zhu et al. 2024; Wang et al. 2025). In secondo luogo, i risultati variano tra i tipi di modello e ri-frasi dello stesso prompt (MA 2024). In terzo luogo, mentre gli LLM possono approssimare le risposte umane medie, non riescono a riprodurre la piena varianza delle opinioni umane, tra cui la diversità culturale (Rime 2025; Kwok et al. 2024).

Il pregiudizio è un’altra preoccupazione. Le LLM ereditano pregiudizi culturali, di genere, professionale e socioeconomica dai dati di addestramento, che possono differire sistematicamente dai pregiudizi umani (Rossi et al. 2024). Producono anche “allucinazioni” – contenuto di fatto errati o immaginari – senza un meccanismo interno per distinguere la verità (Huang et al. 2025; Reddy et al. 2024).

Il lavoro teorico supporta queste critiche. Van Rooij et al. (2024) ha dimostrato matematicamente che nessun modello computazionale addestrato esclusivamente sui dati di osservazione può corrispondere alle risposte umane in tutti gli input. Dal punto di vista dell’apprendimento automatico, gli autori sostengono che la generalizzazione di LLM è limitata a sequenze di token simili ai dati di addestramento, non a nuovi input con significati diversi. Ciò è fondamentale perché l’uso di LLMS come partecipanti simulati richiede generalizzare in modo significativo le nuove configurazioni sperimentali.

Test empirici con scenari morali

Il team ha testato la loro discussione usando 30 Scenari morali di Dillion et al. (2023) con valutazioni umane di studi precedenti (Clifford et al. 2015; Cook e Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Ogni scenario è stato presentato nella sua formulazione originale e in una versione leggermente riformulata con significato alterato ma sequenze di piante simili. Ad esempio, “Taglia la barba da un anziano locale per vergognarlo” è diventato “tagliato la barba da un anziano locale per raderlo” (Schröder et al. 2025).

Partecipanti umani (N = 374Mage =39.54SD =12.53) sono stati reclutati tramite prolifica e assegnati casualmente a condizioni originali o riformulate. Hanno valutato ogni comportamento su una scala da -4 (estremamente non etica) a +4 (estremamente etico). Le valutazioni LLM sono state ottenute da GPT-3.5, GPT-4 (Mini), Llama-3.1 70b e Centaur, con ogni query ripetuta 10 tempi per tenere conto della variazione casuale (Schröder et al. 2025).

Risultati

Per gli elementi originali, le correlazioni tra le valutazioni umane e LLM hanno replicato i risultati precedenti: GPT-3.5 e GPT-4 hanno mostrato entrambe le correlazioni sopra 0.89 Con le valutazioni umane, mentre Llama-3.1 e Centaur hanno anche mostrato un elevato allineamento (r ≥ 0.80) (Schröder et al. 2025). Tuttavia, per gli oggetti riformulati, le valutazioni umane sono state eliminate in correlazione a 0,54 con le loro valutazioni di elementi originali, riflettendo sensiti

Tags: AILlms

Related Posts

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

19 Gennaio 2026
Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

15 Gennaio 2026
La carenza globale di chip di memoria fa impennare i prezzi dei PC

La carenza globale di chip di memoria fa impennare i prezzi dei PC

14 Gennaio 2026
Gli ingegneri costruiscono robot ispirati alle cavallette per risolvere il problema del consumo della batteria

Gli ingegneri costruiscono robot ispirati alle cavallette per risolvere il problema del consumo della batteria

14 Gennaio 2026
Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

7 Gennaio 2026
L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

6 Gennaio 2026

Recent Posts

  • Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11
  • Musk cerca 134 miliardi di dollari da OpenAI e Microsoft
  • Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X
  • Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10
  • iOS 27: tutto ciò che sappiamo finora

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.