Anthropic ha ripetutamente rivisto il test di colloquio tecnico da portare a casa per i candidati dal 2024 per mitigare gli imbrogli assistiti dall'intelligenza artificiale. Il team di ottimizzazione delle prestazioni, responsabile della gestione del test, trovato quello i progressi negli strumenti di codifica dell’intelligenza artificiale hanno reso necessari questi cambiamenti. Il capo del team Tristan Hume ha dichiarato in un post sul blog di mercoledì che ogni nuovo modello Claude ha richiesto riprogettazioni di prova. Claude Opus 4 ha superato la maggior parte dei candidati umani quando è stato assegnato lo stesso limite di tempo, mentre Claude Opus 4.5 ha eguagliato le prestazioni dei migliori candidati. Ciò ha eliminato la capacità di Anthropic di distinguere tra il lavoro dei principali candidati umani e il suo modello di intelligenza artificiale più avanzato nelle condizioni di test da portare a casa. Hume ha sviluppato un nuovo test concentrandosi meno sull’ottimizzazione dell’hardware, rendendolo sufficientemente complesso da sfidare gli attuali strumenti di intelligenza artificiale. Il test originale è stato condiviso anche nel post del blog, invitando i lettori a proporre soluzioni alternative. Il post indicava: “Se riesci a migliorare Opus 4.5, ci piacerebbe sentire la tua opinione”.





