Anthropic si è scusata per aver implementato segretamente misure di limitazione sul suo modello di intelligenza artificiale, Claude Fable 5, attraverso guardrail invisibili, che hanno impedito agli utenti, inclusi ricercatori e concorrenti. La società ha annunciato che ora sarà più trasparente riguardo all’attivazione di queste restrizioni, anche se ciò comporterà il rifiuto da parte di Fable di più domande.
We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.
Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026
Fable è il modello inaugurale della classe di sistemi di intelligenza artificiale Mythos di Anthropic, che la società ha avvertito potrebbe comportare rischi significativi se rilasciato su larga scala. In risposta a questi rischi, Anthropic ha lanciato Fable con protezioni integrate su misura per impedirgli di rispondere ad alcune domande “ad alto rischio”, in particolare relative alla distillazione del modello.
Nella scheda di sistema di Fable, Anthropic ha rivelato che modificherebbe e degraderebbe le risposte del modello se gli utenti tentassero la distillazione senza preavviso. D’ora in poi, le query identificate come tentativi di distillazione torneranno automaticamente a Claude Opus 4.8, il precedente modello di punta. Anthropic si è impegnata a informare gli utenti ogni volta che le loro query tornano all’Opus 4.8, affermando: “Lo vedrai ogni volta che accadrà”.
Questo approccio modificato rispecchia il modo in cui Fable gestisce altre query ad alto rischio, instradandole attraverso Opus 4.8 a meno che non siano bloccate da norme di sicurezza più ampie riguardanti argomenti come droghe o armi. Tuttavia, alcune restrizioni hanno attirato critiche per essere eccessivamente ampie, rendendo Fable quasi inutilizzabile per query di base in aree come la biologia, come notato da Anthropic.
Anthropic ha riconosciuto che la sua decisione iniziale a favore delle protezioni invisibili era fuorviante, affermando: “Le protezioni invisibili possono essere mirate in modo più ristretto, permettendoci di spedire rapidamente con pochissimi falsi positivi… e questo era il compromesso sbagliato”.
Le modifiche seguono una reazione significativa da parte della comunità di ricerca sull’intelligenza artificiale in reazione alla strategia di Anthropic di limitare dinamicamente gli utenti sospettati di tentare di distillare Fable per scopi competitivi. Nella sua scheda di sistema, Anthropic ha giustificato la necessità di indirizzare tali richieste, spiegando che l’utilizzo dei suoi modelli per creare sistemi concorrenti viola i Termini di servizio dell’azienda. La società ha anche accusato alcuni concorrenti, tra cui aziende cinesi come DeepSeek, di diluire ingiustamente i suoi modelli su scala “industriale”.





