Una recente indagine di Anthropic ha rivelato un nuovo metodo per aggirare le misure protettive degli LLM, denominato “jailbreaking many-shot”. Questo approccio sfrutta le ampie finestre di contesto utilizzate dai LLM all’avanguardia per indirizzare i modelli verso la generazione di risposte potenzialmente pericolose o dannose.
L’avanzamento di grandi modelli linguistici porta con sé maggiori possibilità di abuso…
Nuovo documento di ricerca antropico: jailbreak a molti colpi.
Studiamo una tecnica di jailbreak a lungo contesto che è efficace sulla maggior parte dei modelli linguistici di grandi dimensioni, compresi quelli sviluppati da Anthropic e molti dei nostri colleghi.
Leggi il nostro post sul blog e il documento qui: https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8
— Antropico (@AntropicAI) 2 aprile 2024
Cos’è veramente il jailbreak multi-shot?
L’essenza del jailbreak multi-shot consiste nell’inondare il modello con numerose coppie domanda-risposta che dimostrano che l’intelligenza artificiale fornisce risposte non sicure o dannose. Utilizzando centinaia di tali casi, gli autori dei reati possono effettivamente aggirare i protocolli di sicurezza del modello, portando alla produzione di contenuti indesiderati. Questo difetto è stato identificato non solo nei modelli di Anthropic ma anche in quelli creati da importanti entità di intelligenza artificiale come OpenAI.
Fondamentalmente, il jailbreak many-shot sfrutta il concetto di apprendimento in contesto, in cui un modello adatta le sue risposte in base agli esempi di input forniti nel suo ambiente immediato. Questa connessione indica che ideare una strategia per contrastare tali tattiche senza influenzare negativamente la capacità di apprendimento del modello è una sfida complessa.
Questa tecnica sfrutta le ampie finestre di contesto degli LLM avanzati, consentendo ai suggerimenti manipolativi di aggirare le linee guida etiche e di sicurezza dei modelli, portando a risultati potenzialmente dannosi.

Il punto cruciale di questa tecnica risiede nell’uso di numerosi esempi di comportamento indesiderato all’interno di un singolo prompt, sfruttando le vaste capacità di contesto dei moderni LLM per incoraggiarli a replicare questo comportamento. Si tratta di un significativo allontanamento dagli approcci precedenti che si basavano su contesti più brevi, segnando un’evoluzione preoccupante nella sofisticazione degli attacchi contro le misure di sicurezza dell’IA.
Questo studio ha preso di mira specificamente i LLM di alto livello, tra cui Claude 2.0, GPT-3.5, GPT-4, Llama 2 e Mistral 7B, in una serie di attività. I risultati erano allarmanti; con sufficienti “inquadrature” o esempi, questi modelli hanno iniziato a mostrare un’ampia gamma di comportamenti indesiderati, come lanciare insulti o istruzioni per creare armi. L’efficacia di questi attacchi cresceva in modo prevedibile con il numero di esempi forniti, sottolineando una profonda vulnerabilità degli LLM a questa nuova forma di sfruttamento.
Amazon investe ben 4 miliardi di dollari nell’impresa di intelligenza artificiale Anthropic
La ricerca fa luce sulle leggi di scala dell’apprendimento in contesto, suggerendo che all’aumentare del numero di esempi manipolativi, aumenta anche la probabilità che un modello produca contenuti dannosi, seguendo una distribuzione basata sulla legge di potere. Questa relazione vale per diverse attività, dimensioni del modello e persino con modifiche nel formato o nello stile del prompt, indicando un metodo robusto e versatile per eludere i protocolli di sicurezza LLM.
Fondamentalmente, lo studio ha anche esplorato varie strategie di mitigazione, comprese tecniche di allineamento standard e modifiche ai dati di addestramento. Tuttavia, questi approcci hanno mostrato un’efficacia limitata nel limitare il potenziale di risultati dannosi su larga scala, segnalando un percorso impegnativo da percorrere per proteggere gli LLM da attacchi così sofisticati.
Credito immagine in primo piano: Markus Spike/Unsplash