Il 9 settembre 2025, un nuovo modello di AI di 32 miliardi di parametri di nome K2 Think è stato rilasciato dalle società di Intelligenza artificiale Mohamed Bin Zayed di Mohamed Bin Zayed (MBZUAI). Il modello è progettato per il ragionamento avanzato e le prestazioni di rivendicazioni paragonabili a modelli più grandi come O3 di Openi e R1 di DeepSeek. Una caratteristica chiave di K2 Think è la sua trasparenza, che consente agli utenti di visualizzare il ragionamento passo-passo del modello in testo normale. Ore dopo il suo rilascio, il ricercatore Alex Polyakov di Adversa Ai ha scoperto una vulnerabilità di sicurezza che ha chiamato “Perdite parziali di prompt. “Sebbene il suo tentativo iniziale di jailbreak il modello sia stato bloccato, i registri di ragionamento trasparente gli hanno mostrato esattamente il motivo per cui la richiesta è stata contrassegnata. Usando queste informazioni, Polyakov ha perfezionato il suo approccio su più tentativi e hanno aggirato con successo le garanzie di K2 Think, costringendo il modello a fornire istruzioni per le attività illegali come la creazione di malfurrenti.
La trasparenza del modello crea una sfida di sicurezza
La funzionalità di trasparenza di K2 Think, intesa a costruire la fiducia dell’utente, espone anche la sua logica interna, creando una nuova superficie di attacco. Quando il modello rifiuta un prompt dannoso, i suoi registri possono rivelare la specifica regola di sicurezza che è stata attivata. Un utente malintenzionato può utilizzare questo feedback per regolare i loro prompt e bypassare sistematicamente i livelli di sicurezza. Questo incidente evidenzia la necessità per i fornitori di intelligenza artificiale di bilanciare la trasparenza con una solida sicurezza, applicando lo stesso rigore ai registri di ragionamento che fanno per modellare le output.
K2 Think’s Capabilities and Design
Nonostante le sue dimensioni relativamente piccole di 32 miliardi di parametri, K2 pensa che sia progettato per abbinare il ragionamento, la matematica e le prestazioni di codifica di modelli molto più grandi. È progettato per la risoluzione complessa e in più fasi e i pesi dei parametri e i dati di formazione sono pubblicamente visibili. La capacità del modello di visualizzare il suo processo di ragionamento in testo semplice e non filtrato lo distingue da altri modelli in cui tali registri sono spesso riassunti o nascosti dall’utente.
Come funziona la vulnerabilità del jailbreak
Polyakov ha dimostrato che mentre i semplici tentativi di jailbreak sono bloccati, le spiegazioni dettagliate del sistema sul perché una richiesta viene negata può essere sfruttata. Analizzando questi registri, ha modificato iterativamente i suoi suggerimenti per aggirare le regole di sicurezza uno per uno. Questo processo ha mostrato che se vengono rivelate le regole di Guardrail, un attaccante persistente può eventualmente aggirare tutte le restrizioni e istruire il modello a generare contenuti dannosi, come il codice malware.
Implicazioni del settore per la sicurezza dell’IA
Il K2 pensa che la vulnerabilità ci mostri ancora una volta tutta la necessità fondamentale per gli sviluppatori di intelligenza artificiale di trattare il processo di ragionamento di un modello come potenziale rischio di sicurezza. I ricercatori suggeriscono diverse strategie di mitigazione per proteggere i modelli trasparenti:
- Filtro Informazioni sulla regola sensibile dai registri rivolti al pubblico.
- Implementare le regole di sicurezza “honeypot” per fuorviare gli aggressori.
- Applicare i limiti di tariffa per bloccare le richieste maliziose ripetute da un singolo utente.
Polyakov considera l’incidente come un’importante opportunità di apprendimento per l’industria, sottolineando che il ragionamento è sia una caratteristica preziosa che una superficie di sicurezza critica. Affrontando questa vulnerabilità, aziende come G42 possono aiutare a stabilire le migliori pratiche per bilanciare la trasparenza e la protezione nei futuri sistemi di intelligenza artificiale.





