Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Lo studio scopre che LLMS non può simulare in modo affidabile la psicologia umana

byKerem Gülen
12 Agosto 2025
in Ricerca
Home Ricerca
Share on FacebookShare on Twitter
Google Preferred Source

I ricercatori della Bielefeld University e della Purdue University hanno pubblicato I modelli di linguaggio di grandi dimensioni non simulano la psicologia umanaPresentazione di prove concettuali ed empiriche che i modelli linguistici di grandi dimensioni (LLM) non possono essere trattati come simulatori coerenti delle risposte psicologiche umane (Schröder et al. 2025).

Sfondo e portata

Dal 2018, LLMS come GPT-3.5, GPT-4 e Llama-3.1 sono stati applicati ai compiti dalla creazione di contenuti all’istruzione (Schröder et al. 2025). Alcuni ricercatori hanno proposto che gli LLM potrebbero sostituire i partecipanti umani in studi psicologici rispondendo a prompt che descrivono una persona, presentano uno stimolo e forniscano un questionario (Almeida et al. 2024; Kwok et al. 2024). Il modello Centaur, rilasciato da Binz et al. (2025), è stato messo a punto approssimativamente 10 milioni di risposte umane da 160 esperimenti per generare risposte simili all’uomo in tali contesti (Binz et al. 2025).

I lavori precedenti hanno trovato un alto allineamento tra LLM e giudizi morali umani. Ad esempio, Dillion et al. (2023) hanno riportato una correlazione di 0.95 tra le valutazioni GPT-3.5 e le valutazioni umane attraverso 464 Scenari morali. Studi di follow-up con GPT-4O hanno suggerito un ragionamento morale giudicato come più affidabile e corretto rispetto alle risposte etiche umane o esperte (Dillion et al. 2025). Modelli specializzati come Delphi, addestrati su giudizi morali crowdsourcing, hanno anche sovraperformato LLM per scopi generali nei compiti di ragionamento morale (Jiang et al. 2025).

Critiche concettuali

Gli autori riassumono molteplici critiche del trattamento degli LLM come simulatori della psicologia umana. Innanzitutto, gli LLM rispondono spesso in modo incoerente alle istruzioni, con la qualità dell’uscita fortemente dipendente da dettagli rapidi e inquadratura (Zhu et al. 2024; Wang et al. 2025). In secondo luogo, i risultati variano tra i tipi di modello e ri-frasi dello stesso prompt (MA 2024). In terzo luogo, mentre gli LLM possono approssimare le risposte umane medie, non riescono a riprodurre la piena varianza delle opinioni umane, tra cui la diversità culturale (Rime 2025; Kwok et al. 2024).

Il pregiudizio è un’altra preoccupazione. Le LLM ereditano pregiudizi culturali, di genere, professionale e socioeconomica dai dati di addestramento, che possono differire sistematicamente dai pregiudizi umani (Rossi et al. 2024). Producono anche “allucinazioni” – contenuto di fatto errati o immaginari – senza un meccanismo interno per distinguere la verità (Huang et al. 2025; Reddy et al. 2024).

Il lavoro teorico supporta queste critiche. Van Rooij et al. (2024) ha dimostrato matematicamente che nessun modello computazionale addestrato esclusivamente sui dati di osservazione può corrispondere alle risposte umane in tutti gli input. Dal punto di vista dell’apprendimento automatico, gli autori sostengono che la generalizzazione di LLM è limitata a sequenze di token simili ai dati di addestramento, non a nuovi input con significati diversi. Ciò è fondamentale perché l’uso di LLMS come partecipanti simulati richiede generalizzare in modo significativo le nuove configurazioni sperimentali.

Test empirici con scenari morali

Il team ha testato la loro discussione usando 30 Scenari morali di Dillion et al. (2023) con valutazioni umane di studi precedenti (Clifford et al. 2015; Cook e Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Ogni scenario è stato presentato nella sua formulazione originale e in una versione leggermente riformulata con significato alterato ma sequenze di piante simili. Ad esempio, “Taglia la barba da un anziano locale per vergognarlo” è diventato “tagliato la barba da un anziano locale per raderlo” (Schröder et al. 2025).

Partecipanti umani (N = 374Mage =39.54SD =12.53) sono stati reclutati tramite prolifica e assegnati casualmente a condizioni originali o riformulate. Hanno valutato ogni comportamento su una scala da -4 (estremamente non etica) a +4 (estremamente etico). Le valutazioni LLM sono state ottenute da GPT-3.5, GPT-4 (Mini), Llama-3.1 70b e Centaur, con ogni query ripetuta 10 tempi per tenere conto della variazione casuale (Schröder et al. 2025).

Risultati

Per gli elementi originali, le correlazioni tra le valutazioni umane e LLM hanno replicato i risultati precedenti: GPT-3.5 e GPT-4 hanno mostrato entrambe le correlazioni sopra 0.89 Con le valutazioni umane, mentre Llama-3.1 e Centaur hanno anche mostrato un elevato allineamento (r ≥ 0.80) (Schröder et al. 2025). Tuttavia, per gli oggetti riformulati, le valutazioni umane sono state eliminate in correlazione a 0,54 con le loro valutazioni di elementi originali, riflettendo sensiti

Tags: AILlms

Related Posts

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci

3 Giugno 2026
Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

Un sondaggio mostra che il 71% degli americani ritiene che l’intelligenza artificiale stia progredendo troppo rapidamente

20 Maggio 2026
Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

Le carte di pagamento rubate nel Regno Unito vengono vendute per 12 dollari sul dark web, rileva NordVPN

20 Maggio 2026
I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

I data center e le criptovalute potrebbero aumentare i costi energetici del 57% entro il 2030

20 Maggio 2026
Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

Le competenze dell’intelligenza artificiale sono ora vitali per promozioni e aumenti di lavoro, rileva uno studio

20 Maggio 2026
Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

Il nuovo design dei chip magnetici potrebbe sovraperformare gli attuali acceleratori IA

19 Maggio 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.