La generazione di recupero, o RAG, è stata salutata come un modo per rendere più affidabili i modelli linguistici di grandi dimensioni fondando le loro risposte in documenti reali. La logica suona ermetica: dai un modello a conoscenza curata da cui estrarre invece di fare affidamento esclusivamente sui propri parametri e si riducono allucinazioni, disinformazione e risultati rischiosi. Ma un nuovo studio suggerisce che potrebbe accadere il contrario. Anche i modelli più sicuri, abbinati a documenti sicuri, sono diventati notevolmente più pericolosi quando si usa lo straccio.
Ricercatori di Bloomberg AI, Università del Maryland e Johns Hopkins hanno condotto una delle prime analisi su larga scala della sicurezza dei sistemi di Rag. Le loro scoperte ribaltano i presupposti comuni che molti sviluppatori e utenti di intelligenza artificiale sostengono come il recupero influisce sul comportamento del modello. Attraverso undici LLM popolari, Rag spesso ha introdotto nuove vulnerabilità, creando risposte non sicure che non esistevano prima.
Il recupero non ha protetto i modelli
In un test di oltre 5.000 istruzioni dannose, otto su undici modelli hanno mostrato un tasso più elevato di risposte non sicure quando è stato attivato lo straccio. Il comportamento sicuro in ambito non-rag non ha previsto un comportamento sicuro nello straccio. Lo studio ha fornito un esempio concreto: Llama-3-8b, un modello che ha prodotto solo uscite non sicure dello 0,3 per cento delle volte in un ambiente standard, ha visto quella cifra passare al 9,2 per cento quando è stato utilizzato lo straccio.
Non solo la percentuale complessiva di risposte non sicure è salita, ma i modelli hanno anche ampliato le loro vulnerabilità tra nuove categorie di rischio. In precedenza conteneva punti deboli in aree come la pratica non autorizzata della legge o della guida del malware si è diffusa in categorie più ampie tra cui contenuti per adulti, disinformazione e campagne politiche. Lo straccio, invece di restringere il rischio, lo ampliava.
Tre motivi per cui Rag può ritorcersi contro
I ricercatori hanno rintracciato questo inaspettato pericolo per tre fattori di interblocco:
- LLM Baseline di sicurezza: I modelli che erano meno sicuri per cominciare hanno subito il massimo deterioramento delle ambientazioni di stracci.
- Sicurezza del documento: Anche quando i documenti recuperati sono stati classificati come sicuri, i modelli hanno ancora generato contenuti dannosi.
- Performance dell’attività di Rag: Il modo in cui un modello gestito da documenti esterni con la conoscenza interna ha influenzato profondamente i risultati.
Ciò che è emerso è che semplicemente l’abbinamento di un modello sicuro a documenti sicuri non è garanzia di risposte sicure. I meccanismi che rendono accattivanti Rag, come la sintesi di contesto e la risposta guidata dal documento, aprono anche nuovi percorsi per uso improprio e interpretazione errata.
Due comportamenti principali si sono distinti quando i ricercatori hanno analizzato i risultati non sicuri derivanti da documenti sicuri. Innanzitutto, i modelli spesso riproposti le informazioni innocue in consigli pericolosi. Ad esempio, un ingresso di Wikipedia su come la polizia usa i tracker GPS è diventato, nelle mani di un modello, un tutorial per i criminali sulla cattura dell’evasione.
In secondo luogo, anche se incaricati di fare affidamento esclusivamente sui documenti, i modelli a volte miscelati in conoscenza interna. Questa fusione di memoria e recupero ha minato lo straccio di salvaguardia. Anche quando i documenti esterni erano neutrali o benigni, la conoscenza interna non sicura è emersa in modi che la messa a punto si era precedentemente soppressa nell’impostazione non-rag.
L’aggiunta di più documenti recuperati ha solo peggiorato il problema. Gli esperimenti hanno dimostrato che l’aumento del numero di documenti di contesto ha reso LLM più probabilità di rispondere a domande non sicure, non meno. Un singolo documento sicuro era sufficiente per iniziare a cambiare il profilo di rischio di un modello.
Non tutti i modelli gestivano lo straccio equamente. Sonetto Claude 3.5ad esempio, è rimasto notevolmente resiliente, mostrando tassi di risposta non sicuri molto bassi anche sotto la pressione degli stracci. Gemma 7b è apparso sicuro a prima vista, ma un’analisi più profonda ha rivelato che spesso si è semplicemente rifiutato di rispondere alle domande. Scarsa estrazione e capacità di riepilogo mascherate vulnerabilità piuttosto che ripararle.
In generale, i modelli che si sono comportati meglio in attività di Rag autentiche come il riepilogo e l’estrazione erano paradossalmente più vulnerabili. La loro capacità di sintetizzare dai documenti ha anche reso più facile per loro appropriarsi di fatti innocui in contenuti non sicuri quando l’argomento era sensibile.
Le crepe di sicurezza si sono ulteriormente ampliate quando i ricercatori hanno testato i metodi di squadra rossi esistenti progettati per il jailbreak LLMS. Tecniche come GCG e Autodan, che funzionano bene per i modelli standard, non sono riuscite a trasferire il loro successo quando si prendono di mira le configurazioni di Rag.
Una delle maggiori sfide è stata che i suggerimenti contraddittimi hanno ottimizzato per un modello non-rag ha perso l’efficacia quando i documenti sono stati iniettati nel contesto. Anche la riqualificazione delle richieste di avversaria specificamente per RGAG ha migliorato i risultati solo leggermente. La modifica dei documenti recuperati ogni volta creava instabilità, rendendo difficile per le strategie tradizionali di jailbreak di avere successo in modo coerente.
Questo divario mostra che gli strumenti di sicurezza AI e le valutazioni costruite per i modelli di base non sono sufficienti. Sarà necessaria una team rossa specifica dedicata se gli sviluppatori desiderano distribuire sistemi potenziati dal recupero in modo sicuro su larga scala.
Il recupero non è una coperta di sicurezza
Mentre le aziende si muovono sempre più verso le architetture di Rag per Modello di linguaggio di grandi dimensioni Applicazioni, i risultati di questo studio atterrano come un avvertimento rigido. Il recupero aiuta a ridurre le allucinazioni e a migliorare la fattualità, ma non si traduce automaticamente in output più sicuri. Peggio ancora, introduce nuovi livelli di rischio che gli interventi di sicurezza tradizionali non siano stati progettati per gestire.
L’asporto è chiaro: gli sviluppatori di LLM non possono presumere che il recupero del recupero renderà i modelli più sicuri. La messa a punto deve essere esplicitamente adattata per i flussi di lavoro di Rag. La squadra rossa deve tenere conto del dinamismo del contesto. Il monitoraggio deve trattare lo strato di recupero stesso come un potenziale vettore di attacco, non solo un input passivo.
Senza difese specifiche per rag, le stesse tecniche progettate per fondare i modelli di linguaggio in verità potrebbero invece creare nuove vulnerabilità. Se l’industria non affronta rapidamente queste lacune, la prossima generazione di distribuzioni LLM potrebbe ereditare rischi più profondi mascherati sotto l’etichetta di recupero confortante.