La prossima volta che qualcuno ti dice che l’IA ci aiuterà a regolare l’intelligenza artificiale, potresti voler mettere in pausa. Perché quando i ricercatori mettono modelli linguistici di grandi dimensioni (LLM) in un ambiente normativo simulato, facendoli interpretare i ruoli di utenti, sviluppatori e regolatori, i risultati non erano esattamente rassicuranti.
Questo nuovo studioguidato da una squadra dell’Università di Teesside e collaboratori in tutta Europa, ha usato la teoria dei giochi evolutivi per esplorare una questione fondamentale: i sistemi di intelligenza artificiale seguirebbero le regole della regolamentazione dell’IA? E ancora più interessante: in quali condizioni imbrogliano?
L’esperimento: tre AIS camminano in una sala riunioni
Al centro dello studio c’è una classica configurazione di giochi a tre giocatori: un giocatore rappresenta gli utenti di intelligenza artificiale, un altro sviluppatore di intelligenza artificiale e il terzo regolatore. Ognuno ha scelte semplici: fidati o non si conforta, rispetta o difetto, regola o rimanga senza mani.
Ma invece di gestire solo modelli matematici, i ricercatori hanno usato LLM reali, GPT-4O da Openi e Mistral Largee li ha fatti da ruolo a questi scenari attraverso centinaia di giochi.
A volte era un accordo con un colpo (gioca una volta, rivela la tua strategia). Altre volte era un gioco ripetuto, in cui gli agenti potevano imparare dai comportamenti passati.
Fondamentalmente, i ricercatori hanno aggiunto complicazioni realistiche:
- Il regolamento viene fornito con i costi (il monitoraggio richiede sforzo)
- Gli sviluppatori affrontano sanzioni se catturati di rottura delle regole
- Gli utenti possono fidarsi incondizionatamente – o fidarsi solo se i regolatori hanno una buona reputazione
- Tutti vogliono massimizzare il loro payoff
I risultati: gli agenti di intelligenza artificiale si comportano peggio quando gli utenti sono scettici
L’intuizione del titolo? Trust condizionale, quando gli utenti si fidano solo se i regolatori sembrano competenti, falsificati in modo spettacolare.
Quando gli utenti erano diffidenti, sia gli sviluppatori che i regolatori avevano maggiori probabilità di difettare. Regolamento decaduto. Gli sviluppatori hanno tagliato gli angoli. I regolatori sono diventati pigri o indulgenti. Fidati a spirale.
Ma quando gli utenti hanno posto una fiducia incondizionata nel sistema, anche senza prove perfette, gli sviluppatori e i regolatori avevano maggiori probabilità di cooperare e costruire un’intelligenza artificiale più sicura. È un paradosso brutale: più utenti cauti sono, più è probabile che il sistema diventa inaffidabile.
GPT-4 vs Mistral: le personalità dell’IA contano
C’era un’altra affascinante ruga. LLM diversi si sono comportati in modo diverso.
- GPT-4O si sporse più ottimista. Era più probabile fidarsi e rispettare, soprattutto nei giochi ripetuti in cui la cooperazione poteva emergere nel tempo.
- Mastral Large era più pessimista. Tendeva al difetto prima, si fidava di meno ed era più sensibile ai costi normativi.
Ciò significa che anche l’IA che scegli per le simulazioni di governance potrebbe modellare le tue conclusioni: una grande sfida per la riproducibilità nella ricerca sulla regolamentazione dell’IA.
Aggiunta di personalità: i rischi di regolare il comportamento dell’IA
I ricercatori hanno anche testato ciò che accade quando iniettano “personalità” esplicite negli agenti AI.
- Gli utenti avversi al rischio si sono fidati di meno.
- Gli sviluppatori aggressivi hanno disertato di più.
- I regolatori rigorosi hanno migliorato la conformità ma solo fino a un certo punto.
È interessante notare che stabilire personalità specifiche hanno reso i comportamenti LLM su GPT-4O e Mistral più simili. Senza personalità, gli agenti AI sono fallati a una visione del mondo più “pessimistica”, supponendo spesso che sviluppatori e regolatori non avrebbero agito in buona fede.
Quindi l’IA può regolare l’IA?
In breve: solo se l’ambiente è già fiducioso, trasparente e ben incentivato.
Lo studio suggerisce che i sistemi di regolamentazione che si basano sugli stessi agenti di intelligenza artificiale possono ereditare il disordine e l’imprevedibilità del comportamento strategico umano. Indica anche un difetto critico nell’idea di automatizzare la governance: i sistemi di intelligenza artificiale rispecchieranno le strutture di fiducia dell’ambiente in cui si trovano.
Se i regolatori sono sottofinanziati o deboli o se gli utenti sono scettici, gli sviluppatori di intelligenza artificiale, umani o meno, probabilmente tagliaranno gli angoli. In definitiva, i ricercatori sostengono che le soluzioni tecniche da sole non costruiranno ecosistemi AI affidabili. La teoria dei giochi ci mostra che incentivi, reputazione e trasparenza sono profondamente. E i loro esperimenti mostrano che anche gli LLM più intelligenti non possono sfuggire a quelle dinamiche.
Il loro avvertimento per i politici è chiaro: la regolamentazione non riguarda solo le regole di scrittura. Si tratta di costruire strutture in cui la fiducia viene premiata, l’applicazione è credibile e il taglio degli angoli è costoso.