Gli agenti AI possono essere controllati da comandi dannosi nascosti nelle immagini

Uno studio del 2025 dell’Università di Oxford ha rivelato una vulnerabilità di sicurezza negli agenti AI, che dovrebbero essere ampiamente utilizzati entro due anni. A differenza dei chatbot, questi agenti possono intraprendere azioni dirette sul computer di un utente, come l’apertura di schede o la compilazione di moduli. La ricerca mostra come gli aggressori possono incorporare comandi invisibili nelle immagini per assumere il controllo di questi agenti.

Come funziona l’attacco basato sull’immagine

I ricercatori hanno dimostrato che apportando sottili modifiche ai pixel in un’immagine, come uno sfondo desktop, un annuncio online o un post sui social media, potrebbero incorporare comandi dannosi. Mentre queste alterazioni sono invisibili all’occhio umano, un agente di intelligenza artificiale può interpretarle come istruzioni. Lo studio ha utilizzato uno sfondo “Taylor Swift” come esempio. Una singola immagine manipolata potrebbe comandare un agente AI in esecuzione di ritwittare l’immagine sui social media e quindi inviare le password dell’utente a un utente malintenzionato. L’attacco colpisce solo gli utenti che hanno un agente AI attivo sul proprio computer.

Perché gli sfondi sono un vettore di attacco efficace?

Gli agenti di intelligenza artificiale lavorano facendo ripetutamente screenshot del desktop dell’utente per capire cosa c’è sullo schermo e identificando gli elementi con cui interagire. Poiché uno sfondo desktop è sempre presente in questi screenshot, funge da metodo di consegna persistente per un comando dannoso. I ricercatori hanno scoperto che questi comandi nascosti sono anche resistenti ai cambiamenti di immagine comuni come il ridimensionamento e la compressione. I modelli AI open source sono particolarmente vulnerabili perché gli aggressori possono studiare il loro codice per apprendere come elaborano le informazioni visive. Ciò consente loro di progettare motivi pixel che il modello interpreterà in modo affidabile come comando. La vulnerabilità consente agli aggressori di mettere insieme più comandi. Un’immagine iniziale dannosa può istruire l’agente a navigare su un sito Web, che potrebbe ospitare una seconda immagine dannosa. Questa seconda immagine può quindi innescare un’altra azione, creando una sequenza che consente attacchi più complessi.

Cosa si può fare?

I ricercatori sperano che i loro risultati spingeranno gli sviluppatori a costruire misure di sicurezza prima che gli agenti AI diventi diffusi. Le potenziali difese includono i modelli di riqualificazione per ignorare questi tipi di immagini manipolate o l’aggiunta di livelli di sicurezza che impediscono agli agenti di agire sul contenuto sullo schermo.

Le persone si affrettano a distribuire la tecnologia prima che la sua sicurezza sia completamente compresa.

Yarin Gal, professore di Oxford e coautore dello studio, ha espresso preoccupazione per il fatto che il rapido implementazione della tecnologia degli agenti sta superando la ricerca sulla sicurezza. Gli autori hanno affermato che anche le aziende con modelli a source chiusa non sono immuni, poiché l’attacco sfrutta i comportamenti del modello fondamentale che non possono essere protetti semplicemente mantenendo il codice privato.

Credito d’immagine in primo piano

Gli agenti AI possono essere controllati da comandi dannosi nascosti nelle immagini

Related Posts

Accesso gratuito a Claude Fable 5 esteso fino al 19 luglio

OpenAI aumenta temporaneamente i limiti di utilizzo di GPT-5.6 Sol

Meta lancia Muse Spark 1.1 per la codifica dell’intelligenza artificiale degli agenti

SpaceXAI lancia Grok 4.5 come nuovo modello AI di punta

Brevetto sui metafile per un dispositivo di monitoraggio emotivo basato sull’intelligenza artificiale

Claude ottiene la dashboard di Reflect per monitorare l’utilizzo dell’intelligenza artificiale

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Gli agenti AI possono essere controllati da comandi dannosi nascosti nelle immagini

Come funziona l’attacco basato sull’immagine

Perché gli sfondi sono un vettore di attacco efficace?

Cosa si può fare?

Related Posts

Accesso gratuito a Claude Fable 5 esteso fino al 19 luglio

OpenAI aumenta temporaneamente i limiti di utilizzo di GPT-5.6 Sol

Meta lancia Muse Spark 1.1 per la codifica dell’intelligenza artificiale degli agenti

SpaceXAI lancia Grok 4.5 come nuovo modello AI di punta

Brevetto sui metafile per un dispositivo di monitoraggio emotivo basato sull’intelligenza artificiale

Claude ottiene la dashboard di Reflect per monitorare l’utilizzo dell’intelligenza artificiale

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us