Un nuovo studio da Università di New York e Università di Tübingenguidato da Hanna M. Dettki, Brenden M. Lake, Charley M. Wu e Bob Rehderchiede se l’IA può ragionare sulle cause come fanno gli umani o se si basa invece su schemi. Il loro documento, “I modelli di linguaggio di grandi dimensioni ragionano causalmente come noi? Ancora meglio?“, Sonda quattro modelli popolari-GPT-3.5, GPT-4O, Claude-3 e Gemini-Pro-per vedere se afferrano strutture causali complesse o semplicemente imitano il linguaggio umano.
Come lo studio ha testato il ragionamento causale nell’intelligenza artificiale
I ricercatori hanno confrontato il ragionamento umano con quattro LLM—GPT-3.5, GPT-4O, Claude-3 e Gemini-Pro—Using grafici colliderun test classico nell’inferenza causale. Ai partecipanti (sia umani che AI) è stato chiesto di valutare la probabilità di un evento dato alcune relazioni causali. La domanda principale: gli LLM ragionano causalmente allo stesso modo degli umani o seguono una logica diversa?
AI ora gestisce le simulazioni molecolari: grazie a mdcrow
Risultati chiave: L’intelligenza artificiale può ragionare ma non come gli umani
I risultati rivelati uno spettro di ragionamento causale tra i modelli di intelligenza artificiale.
- GPT-4O e Claude-3 ha mostrato di più ragionamento normativonel senso che hanno seguito la teoria della probabilità più da vicino dei partecipanti umani.
- Gemini-Pro e GPT-3.5d’altra parte, mostrato di più ragionamento associativonel senso che si basavano maggiormente su modelli statistici piuttosto che su una rigorosa logica causale.
- Tutti i modelli hanno mostrato pregiudizideviando dall’indipendenza attesa delle cause. Tuttavia, Claude-3 era il meno distortonel senso che ha aderito più da vicino alle norme causali matematiche.
È interessante notare, Gli umani spesso applicano l’euristica che si discosta dalla teoria della probabilità rigorosa, come l’effetto di “spiegazione”, in cui l’osservazione di una causa riduce la probabilità di un’altra. Mentre i modelli di intelligenza artificiale hanno riconosciuto questo effetto, le loro risposte variavano in modo significativo in base ai dati di formazione e al contesto.
AI vs. Ragionamento umano: una differenza fondamentale
Una delle intuizioni più intriganti dello studio è che LLMS Non imitare solo il ragionamento umano—Cravvissero la causalità in modo diverso. A differenza degli umani, i cui giudizi sono rimasti relativamente stabili in contesti diversi, I modelli AI hanno regolato il loro ragionamento a seconda della conoscenza del dominio (EG, Economia vs. Sociologia).
- GPT-4O, in particolare, trattava i collegamenti causali come deterministicisupponendo che alcune cause producano sempre effetti specifici.
- Gli umani, al contrario, il fattore di incertezzariconoscendo che le relazioni causali non sono sempre assolute.
Ciò suggerisce che mentre l’IA può essere più preciso In alcuni compiti strutturati, esso manca della flessibilità di pensiero umano quando si tratta di situazioni ambigue o multi-causali.
Perché questo è importante per l’IA nel processo decisionale
Lo studio rivela una limitazione importante: LLMS non può generalizzare la conoscenza causale oltre i loro dati di formazione senza una forte guida. Ciò ha implicazioni critiche per l’implementazione dell’IA nel processo decisionale del mondo reale, dalle diagnosi mediche alle previsioni economiche.
LLMS potrebbe sovraperformare gli esseri umani in inferenza basata sulla probabilità, ma il loro ragionamento rimane fondamentalmente diverso, spesso privo dell’intuitivo e logico adattivo che gli umani usano nella risoluzione quotidiana dei problemi.
In altre parole, l’intelligenza artificiale può ragionare sulla causalità, ma non ti piace.
Credito immagine in primo piano: Kerem Gülen/ideogramma