ChatGPT Atlas sfruttato con semplici trucchi di Google Docs

OpenAI ha lanciato il suo browser ChatGPT Atlas AI in ottobre, spingendo i ricercatori di sicurezza a dimostrare le vulnerabilità di iniezione tempestiva tramite input di Google Docs che alteravano il comportamento del browser, mentre la società ha dettagliato le difese in un lunedì articolo del blog pur ammettendo che tali attacchi persistono. La prompt injection rappresenta un tipo di attacco che manipola gli agenti IA per seguire istruzioni dannose, spesso nascoste nelle pagine web o nelle e-mail. Presentato OpenAI Atlante ChatGPT nel mese di ottobre, un browser basato sull’intelligenza artificiale progettato per funzionare con funzionalità avanzate degli agenti sul Web aperto. Il giorno del lancio, i ricercatori sulla sicurezza hanno pubblicato dimostrazioni che rivelavano come l’inserimento di poche parole in Google Docs potesse modificare il comportamento del browser sottostante. Queste demo hanno evidenziato problemi immediati di sicurezza con il nuovo prodotto, mostrando metodi pratici per sfruttare il sistema attraverso input indiretti. Brave ha pubblicato un post sul blog lo stesso giorno del lancio, affrontando il prompt injection indiretto come una sfida sistematica che colpisce i browser basati sull’intelligenza artificiale. Il post fa specifico riferimento a Comet di Perplexity insieme ad altri strumenti simili, sottolineando che questa vulnerabilità si estende a tutto il settore anziché essere isolata nell’offerta di OpenAI. L’analisi di Brave ha inquadrato la questione come inerente all’architettura dei browser che integrano funzionalità di intelligenza artificiale generativa.

Caratteristica	Funzione/rischio	Strategia di mitigazione
Modalità agente	Esamina in modo autonomo le e-mail e le bozze delle risposte.	Umano nel circuito: Richiede conferma per pagamenti o invii.
Iniezione immediata	Testo nascosto in siti Web/e-mail che sovrascrive l’intento dell’utente.	Attaccante RL: Un bot AI che “pre-hackera” il browser per trovare difetti.
Accesso ai dati	Alto (accesso completo alle sessioni di accesso, alle caselle di posta).	Autorizzazioni limitate: Si consiglia agli utenti di assegnare compiti specifici e ristretti.
Livello di autonomia	Moderato (esegue flussi di lavoro in più fasi).	Ciclo rapido delle patch: Simulazione interna di attacchi “a lungo orizzonte”.

All’inizio del mese, il National Cyber Security Centre del Regno Unito ha emesso un avvertimento sugli attacchi di tipo “pront injection” contro le applicazioni di intelligenza artificiale generativa. L’agenzia ha affermato che tali attacchi “potrebbero non essere mai completamente mitigati”, il che espone i siti Web al rischio di violazione dei dati. Il centro ha indirizzato i professionisti informatici a concentrarsi sulla riduzione del rischio e dell’impatto di queste iniezioni, piuttosto che dare per scontato che gli attacchi possano essere completamente fermati. Questa guida enfatizzava la gestione pratica del rischio rispetto alle aspettative di eliminazione totale. Il post sul blog di OpenAI di lunedì ha delineato gli sforzi per rafforzare ChatGPT Atlas contro gli attacchi informatici. La società ha scritto: “L’iniezione rapida, proprio come le truffe e l’ingegneria sociale sul web, difficilmente verrà mai completamente ‘risolta’”. OpenAI ha inoltre ammesso che la “modalità agente” in ChatGPT Atlas “espande la superficie delle minacce alla sicurezza”. Il post ha posizionato la pronta iniezione come una preoccupazione costante paragonabile alle minacce web di lunga data. OpenAI ha dichiarato: “Consideriamo la pronta iniezione come una sfida alla sicurezza dell’IA a lungo termine e dovremo rafforzare continuamente le nostre difese contro di essa”. La modalità agente consente all’intelligenza artificiale del browser di eseguire azioni autonome, come interagire con e-mail o documenti, il che aumenta intrinsecamente l’esposizione a input esterni che potrebbero contenere istruzioni nascoste. Questa modalità differenzia Atlas dai browser tradizionali garantendo all’intelligenza artificiale una maggiore libertà operativa per conto degli utenti, ampliando così i potenziali punti di ingresso per le manipolazioni. Per affrontare questo rischio persistente, OpenAI ha implementato un ciclo proattivo e di risposta rapida volto a identificare nuove strategie di attacco internamente prima che lo sfruttamento avvenga in scenari del mondo reale. L’azienda ha segnalato le prime promesse di questo approccio nel prevenire le minacce. Questo metodo si allinea con le strategie di concorrenti come Anthropic e Google, che sostengono difese a più livelli e test di stress continui nei sistemi ad agenti. I recenti sforzi di Google, ad esempio, incorporano controlli architettonici e a livello di policy su misura per tali ambienti. OpenAI distingue il suo approccio attraverso l’implementazione di un aggressore automatizzato basato su LLM, un bot addestrato tramite apprendimento per rinforzo per simulare tattiche hacker. Questo bot cerca opportunità per inserire istruzioni dannose negli agenti AI. Conduce test all’interno di un ambiente di simulazione prima di qualsiasi applicazione nel mondo reale. Il simulatore replica i processi mentali dell’IA bersaglio e le azioni successive quando incontra un attacco, consentendo al bot di analizzare le risposte, affinare la propria strategia e ripetere ripetutamente. Questo accesso interno al ragionamento dell’IA fornisce a OpenAI un vantaggio non disponibile per gli aggressori esterni, consentendo un rilevamento più rapido dei difetti. La tecnica rispecchia le pratiche comuni nei test di sicurezza dell’IA, in cui agenti specializzati sondano i casi limite attraverso rapide prove simulate. OpenAI ha notato che il suo aggressore addestrato all’apprendimento per rinforzo può guidare un agente nell’esecuzione di flussi di lavoro dannosi sofisticati e a lungo orizzonte che si svolgono in decine (o addirittura centinaia) di passaggi. La società ha aggiunto: “Abbiamo anche osservato nuove strategie di attacco che non sono apparse nella nostra campagna di red teaming umano o nei rapporti esterni”. In una dimostrazione specifica presentata nel post del blog, l’aggressore automatizzato ha inserito un’e-mail dannosa nella casella di posta di un utente. Quando la modalità agente di Atlas ha scansionato la casella di posta per redigere una risposta fuori sede, ha invece aderito alle istruzioni nascoste dell’e-mail e ha composto un messaggio di dimissioni. Questo esempio illustra un inganno in più fasi che abbraccia l’elaborazione della posta elettronica e la generazione dei messaggi, eludendo le garanzie iniziali. A seguito di un aggiornamento di sicurezza di Atlas, la modalità agente ha identificato il tentativo di inserimento tempestivo durante la scansione della posta in arrivo e lo ha segnalato direttamente all’utente. Questo risultato ha dimostrato l’efficacia delle misure di risposta rapida nella mitigazione delle minacce in tempo reale, impedendo il proseguimento dell’azione dannosa. OpenAI si basa su test su larga scala combinati con cicli di patch accelerati per rafforzare i sistemi contro iniezioni tempestive prima che si manifestino all’esterno. Questi processi consentono miglioramenti iterativi basati su scoperte simulate, garantendo che le difese si evolvano insieme alle potenziali minacce.

Credito immagine in primo piano