Il ricercatore di sicurezza Johann Rehberger ha esposto una grave vulnerabilità in ChatGPT che potrebbe consentire agli aggressori di registrare dati non corretti insieme a istruzioni dannose nelle impostazioni di un utente per la memoria a lungo termine. Dopo aver segnalato il difetto a OpenAI, Rehberger ha notato che l’azienda inizialmente lo aveva liquidato come una questione di sicurezza piuttosto che come un problema di sicurezza. Dopo che Rehberger ha mostrato un exploit di proof-of-concept (PoC) che sfruttava la vulnerabilità per esfiltrare in modo permanente tutti gli input degli utenti, gli ingegneri di OpenAI ne sono venuti a conoscenza e hanno rilasciato una correzione parziale all’inizio di questo mese.
Sfruttare la memoria a lungo termine
Secondo Arstechnica, Rehberger trovato che puoi alterare la memoria a lungo termine di ChatGPT usando l’iniezione di prompt indiretta. Questo metodo consente agli aggressori di incorporare falsi ricordi o istruzioni in materiale non attendibile come e-mail caricate, voci di blog o documenti.
Il PoC di Rehberger ha dimostrato che ingannare ChatGPT per aprire un collegamento Web dannoso ha consentito all’attaccante di avere il pieno controllo sulla cattura e l’invio di tutti gli input utente successivi e delle risposte ChatGPT a un server da loro controllato. Rehberger ha dimostrato come l’exploit potrebbe far sì che ChatGPT conservi informazioni false, tra cui credere che un utente abbia 102 anni e viva nella Matrix, influenzando tutte le discussioni future.
La risposta di OpenAI e i rischi persistenti
OpenAI ha inizialmente risposto al report di Rehberger chiudendolo, classificando la vulnerabilità come una questione di sicurezza piuttosto che un problema di sicurezza. Dopo aver condiviso il PoC, l’azienda ha rilasciato una patch per impedire all’exploit di funzionare come vettore di esfiltrazione. Ciononostante, Rehberger ha sottolineato che il problema fondamentale delle iniezioni rapide rimane irrisolto. Mentre la strategia esplicita per il furto di dati è stata affrontata, gli attori manipolatori potrebbero comunque influenzare lo strumento di memoria per incorporare dati fabbricati nelle impostazioni di memoria a lungo termine di un utente.
Rehberger ha osservato nella dimostrazione video, “Ciò che è particolarmente intrigante è che questo exploit persiste nella memoria. L’iniezione rapida ha integrato con successo la memoria nello storage a lungo termine di ChatGPT e, anche quando si avvia una nuova chat, non smette di esfiltrare i dati.
Grazie all’API lanciata lo scorso anno da OpenAI, questo specifico metodo di attacco non è realizzabile tramite l’interfaccia web di ChatGPT.
Come proteggersi dagli exploit della memoria ChatGPT (o LLM)?
Quelli che usano Laurea Magistrale in Giurisprudenza che vogliono mantenere sicuri i loro scambi con ChatGPT sono incoraggiati a cercare aggiornamenti al sistema di memoria durante le loro sessioni. Gli utenti finali devono controllare ripetutamente e occuparsi delle memorie archiviate per contenuti sospetti. Gli utenti hanno una guida da OpenAI sulla gestione di queste impostazioni di memoria e possono inoltre decidere di disattivare la funzione di memoria per eliminare questi possibili rischi.
Grazie alle capacità di memoria di ChatGPT, gli utenti possono proteggere i propri dati da possibili exploit mantenendo alta la guardia e adottando misure preventive.