Uno studio del 2025 dell’Università di Oxford ha rivelato una vulnerabilità di sicurezza negli agenti AI, che dovrebbero essere ampiamente utilizzati entro due anni. A differenza dei chatbot, questi agenti possono intraprendere azioni dirette sul computer di un utente, come l’apertura di schede o la compilazione di moduli. La ricerca mostra come gli aggressori possono incorporare comandi invisibili nelle immagini per assumere il controllo di questi agenti.
Come funziona l’attacco basato sull’immagine
I ricercatori hanno dimostrato che apportando sottili modifiche ai pixel in un’immagine, come uno sfondo desktop, un annuncio online o un post sui social media, potrebbero incorporare comandi dannosi. Mentre queste alterazioni sono invisibili all’occhio umano, un agente di intelligenza artificiale può interpretarle come istruzioni. Lo studio ha utilizzato uno sfondo “Taylor Swift” come esempio. Una singola immagine manipolata potrebbe comandare un agente AI in esecuzione di ritwittare l’immagine sui social media e quindi inviare le password dell’utente a un utente malintenzionato. L’attacco colpisce solo gli utenti che hanno un agente AI attivo sul proprio computer.
Perché gli sfondi sono un vettore di attacco efficace?
Gli agenti di intelligenza artificiale lavorano facendo ripetutamente screenshot del desktop dell’utente per capire cosa c’è sullo schermo e identificando gli elementi con cui interagire. Poiché uno sfondo desktop è sempre presente in questi screenshot, funge da metodo di consegna persistente per un comando dannoso. I ricercatori hanno scoperto che questi comandi nascosti sono anche resistenti ai cambiamenti di immagine comuni come il ridimensionamento e la compressione. I modelli AI open source sono particolarmente vulnerabili perché gli aggressori possono studiare il loro codice per apprendere come elaborano le informazioni visive. Ciò consente loro di progettare motivi pixel che il modello interpreterà in modo affidabile come comando. La vulnerabilità consente agli aggressori di mettere insieme più comandi. Un’immagine iniziale dannosa può istruire l’agente a navigare su un sito Web, che potrebbe ospitare una seconda immagine dannosa. Questa seconda immagine può quindi innescare un’altra azione, creando una sequenza che consente attacchi più complessi.
Cosa si può fare?
I ricercatori sperano che i loro risultati spingeranno gli sviluppatori a costruire misure di sicurezza prima che gli agenti AI diventi diffusi. Le potenziali difese includono i modelli di riqualificazione per ignorare questi tipi di immagini manipolate o l’aggiunta di livelli di sicurezza che impediscono agli agenti di agire sul contenuto sullo schermo.
Le persone si affrettano a distribuire la tecnologia prima che la sua sicurezza sia completamente compresa.
Yarin Gal, professore di Oxford e coautore dello studio, ha espresso preoccupazione per il fatto che il rapido implementazione della tecnologia degli agenti sta superando la ricerca sulla sicurezza. Gli autori hanno affermato che anche le aziende con modelli a source chiusa non sono immuni, poiché l’attacco sfrutta i comportamenti del modello fondamentale che non possono essere protetti semplicemente mantenendo il codice privato.





