I modelli di grandi dimensioni (LLM) come GPT-4, Gemini 1.5 e Claude 3.5 hanno fatto passi da gigante nel ragionamento, nel dialogo e persino alla negoziazione. Ma se collocati in un contesto strategico che richiede segretezza e inganno, questi agenti di intelligenza artificiale mostrano una debolezza significativa: non possono mantenere un segreto.
Un nuovo studio Dai ricercatori Mustafa O. Karabag e Ufuk Topcu presso l’Università del Texas ad Austin hanno messo al test LLM Il camaleonteun gioco da tavolo a identità nascosta in cui i giocatori devono rivelare, nascondere e inferire strategicamente informazioni. I risultati suggeriscono che, sebbene l’IA può identificare l’inganno, lotta per trattenere le informazioni critiche, rendendole non adatte per gli scenari contraddittori in cui la discrezione è fondamentale.
Ai gioca Il camaleonte gioco – e fallisce nella strategia
In Il camaleonteun gruppo di giocatori riceve una parola segreta, ad eccezione di una – il camaleonte – che deve dedurre il segreto in base alle risposte del gruppo. I giocatori non chameleon devono bilanciare abbastanza per riconoscerci mantenendo il camaleonte al buio. Il gioco richiede un approccio perfezionato alla condivisione delle informazioni: troppo, e il camaleonte indovina la parola; Troppo poco e il gruppo non riesce a identificare il camaleonte.
Quando gli agenti di AI hanno assunto i ruoli, il loro istinto strategico è andato in pezzi. Mentre LLM come GPT-4O sono stati in grado di identificare correttamente il camaleonte il 61% delle volte, la loro capacità di mantenere nascosta la parola segreta era triste. Lo studio ha scoperto che i camaleonte AIS potevano dedurre la parola segreta con un tasso di successo dell’87% sorprendente, più alto del previsto.
L’intelligenza artificiale ora può fare clic, scorrere e digitare per te, ma è una buona cosa?
I modelli teorici confermano il problema di condivisione eccessiva dell’IA
Per comprendere questi fallimenti, i ricercatori hanno sviluppato modelli matematici che prevedono strategie ottimali per nascondere e rivelare informazioni. Teoricamente, i giocatori non chameleon dovrebbero vincere circa il 23% delle volte, anche se hanno ignorato completamente la parola segreta. Invece, i non chameleon AI hanno vinto solo il 6% dei giochi, suggerendo che stavano perdendo troppe informazioni.
“Agenti di intelligenza artificiale istintivamente troppo rivelati”, conclude lo studio. Quando a LLMS ha avuto la possibilità di escogitare le proprie strategie, tendevano a una divulgazione eccessiva, rendendo facile per il camaleonte dedurre il segreto. Ciò si allinea con i risultati di altri giochi di detrazione sociale, come Spyfalldove è stato dimostrato che i giocatori di intelligenza artificiale si affidano troppo alle parole chiave, ribaltando involontariamente gli avversari.
Perché l’IA non può mantenere i segreti
I ricercatori ipotizzano che la formazione fondamentale dell’IA lo rende non adatto per il segreto. Gli LLM sono progettati per massimizzare la coerenza e l’utilità, il che spesso significa completare i modelli piuttosto che trattenere strategicamente informazioni. Questa tendenza associativa è direttamente in conflitto con la necessità di oscurare i dettagli chiave nelle interazioni contraddittorie.
Per confermare ciò, i ricercatori hanno eseguito ulteriori test utilizzando i conteggi dei risultati della ricerca Web per tenere traccia di quante informazioni sono stati rivelanti i giocatori di intelligenza artificiale. Anche dopo una sola risposta da un LLM non chameleon, l’IA Chameleon potrebbe già indovinare la parola segreta con una probabilità del 40%, mostrando che le risposte dell’IA portavano molte più informazioni delle previste.
Quando troppe informazioni diventano una responsabilità per l’IA
Se LLMS lotta con discrezione strategica in ambienti controllati, come gestiranno scenari del mondo reale in cui l’occultamento delle informazioni è fondamentale? Le applicazioni in sicurezza informatica, diplomazia o business intelligence competitiva possono richiedere ai sistemi di intelligenza artificiale di operare con sfumature molto maggiori.
Per affrontare questo obiettivo, gli sviluppatori di intelligenza artificiale potrebbero aver bisogno di formare modelli con una forte attenzione all’ambiguità strategica, riducendo il loro istinto a disclinare troppo. Tecniche come l’apprendimento del rinforzo contraddittorio o la formazione esplicita dell’inganno potrebbero aiutare a bilanciare la capacità dell’intelligenza artificiale di dedurre le informazioni senza dare immediatamente via il gioco.
Per ora, però, l’IA rimane un povero giocatore di poker. Sebbene possa essere ottimo nel individuare l’inganno, la sua incapacità di mantenere segreti significa che non è ancora pronta per il mondo del ragionamento strategico di alto livello.
Credito immagine in primo piano: Kerem Gülen/Midjourney