Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Il nuovo K2 degli Emirati Arabi Uniti Think AI Model jailbreak ore dopo il rilascio tramite registri di ragionamento trasparente

byEmre Çıtak
12 Settembre 2025
in Intelligenza Artificiale, Sicurezza Informatica
Home Notizia Intelligenza Artificiale
Share on FacebookShare on Twitter
Google Preferred Source

Il 9 settembre 2025, un nuovo modello di AI di 32 miliardi di parametri di nome K2 Think è stato rilasciato dalle società di Intelligenza artificiale Mohamed Bin Zayed di Mohamed Bin Zayed (MBZUAI). Il modello è progettato per il ragionamento avanzato e le prestazioni di rivendicazioni paragonabili a modelli più grandi come O3 di Openi e R1 di DeepSeek. Una caratteristica chiave di K2 Think è la sua trasparenza, che consente agli utenti di visualizzare il ragionamento passo-passo del modello in testo normale. Ore dopo il suo rilascio, il ricercatore Alex Polyakov di Adversa Ai ha scoperto una vulnerabilità di sicurezza che ha chiamato “Perdite parziali di prompt. “Sebbene il suo tentativo iniziale di jailbreak il modello sia stato bloccato, i registri di ragionamento trasparente gli hanno mostrato esattamente il motivo per cui la richiesta è stata contrassegnata. Usando queste informazioni, Polyakov ha perfezionato il suo approccio su più tentativi e hanno aggirato con successo le garanzie di K2 Think, costringendo il modello a fornire istruzioni per le attività illegali come la creazione di malfurrenti.

La trasparenza del modello crea una sfida di sicurezza

La funzionalità di trasparenza di K2 Think, intesa a costruire la fiducia dell’utente, espone anche la sua logica interna, creando una nuova superficie di attacco. Quando il modello rifiuta un prompt dannoso, i suoi registri possono rivelare la specifica regola di sicurezza che è stata attivata. Un utente malintenzionato può utilizzare questo feedback per regolare i loro prompt e bypassare sistematicamente i livelli di sicurezza. Questo incidente evidenzia la necessità per i fornitori di intelligenza artificiale di bilanciare la trasparenza con una solida sicurezza, applicando lo stesso rigore ai registri di ragionamento che fanno per modellare le output.

K2 Think’s Capabilities and Design

Nonostante le sue dimensioni relativamente piccole di 32 miliardi di parametri, K2 pensa che sia progettato per abbinare il ragionamento, la matematica e le prestazioni di codifica di modelli molto più grandi. È progettato per la risoluzione complessa e in più fasi e i pesi dei parametri e i dati di formazione sono pubblicamente visibili. La capacità del modello di visualizzare il suo processo di ragionamento in testo semplice e non filtrato lo distingue da altri modelli in cui tali registri sono spesso riassunti o nascosti dall’utente.

Come funziona la vulnerabilità del jailbreak

Polyakov ha dimostrato che mentre i semplici tentativi di jailbreak sono bloccati, le spiegazioni dettagliate del sistema sul perché una richiesta viene negata può essere sfruttata. Analizzando questi registri, ha modificato iterativamente i suoi suggerimenti per aggirare le regole di sicurezza uno per uno. Questo processo ha mostrato che se vengono rivelate le regole di Guardrail, un attaccante persistente può eventualmente aggirare tutte le restrizioni e istruire il modello a generare contenuti dannosi, come il codice malware.

Implicazioni del settore per la sicurezza dell’IA

Il K2 pensa che la vulnerabilità ci mostri ancora una volta tutta la necessità fondamentale per gli sviluppatori di intelligenza artificiale di trattare il processo di ragionamento di un modello come potenziale rischio di sicurezza. I ricercatori suggeriscono diverse strategie di mitigazione per proteggere i modelli trasparenti:

  • Filtro Informazioni sulla regola sensibile dai registri rivolti al pubblico.
  • Implementare le regole di sicurezza “honeypot” per fuorviare gli aggressori.
  • Applicare i limiti di tariffa per bloccare le richieste maliziose ripetute da un singolo utente.

Polyakov considera l’incidente come un’importante opportunità di apprendimento per l’industria, sottolineando che il ragionamento è sia una caratteristica preziosa che una superficie di sicurezza critica. Affrontando questa vulnerabilità, aziende come G42 possono aiutare a stabilire le migliori pratiche per bilanciare la trasparenza e la protezione nei futuri sistemi di intelligenza artificiale.


Credito d’immagine in primo piano

Tags: In primo pianojailbreakK2 Pensa al modello AISicurezza

Related Posts

Anthropic invita altre 150 organizzazioni al progetto Glasswing

Anthropic invita altre 150 organizzazioni al progetto Glasswing

3 Giugno 2026
Microsoft svela Project Solara per un futuro incentrato sugli agenti

Microsoft svela Project Solara per un futuro incentrato sugli agenti

3 Giugno 2026
Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

3 Giugno 2026
OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

3 Giugno 2026
Meta patch per un difetto AI che ha consentito l’acquisizione di account Instagram

Meta patch per un difetto AI che ha consentito l’acquisizione di account Instagram

2 Giugno 2026
Il servizio cheat di GTA V Atlas Menu è stato violato, esponendo 64.000 account

Il servizio cheat di GTA V Atlas Menu è stato violato, esponendo 64.000 account

2 Giugno 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.