CEO antropico Dario Amodei Pubblicato Giovedì un saggio che evidenzia la comprensione limitata del funzionamento interno dei principali modelli di intelligenza artificiale e ha fissato un obiettivo per l’antropico a rilevare in modo affidabile la maggior parte dei problemi del modello di intelligenza artificiale entro il 2027.
Amodei riconosce la sfida in vista, affermando che mentre Antropic ha fatto prime scoperte nel rintracciare il modo in cui i modelli arrivano alle loro risposte, sono necessarie ulteriori ricerche per decodificare questi sistemi man mano che diventano più potenti. “Sono molto preoccupato di distribuire tali sistemi senza una migliore gestione dell’interpretazione”, ha scritto Amodei, sottolineando il loro ruolo centrale nell’economia, nella tecnologia e nella sicurezza nazionale.
Antropico è un pioniere nell’interpretazione meccanicistica, con l’obiettivo di capire perché i modelli di intelligenza artificiale prendono determinate decisioni. Nonostante i rapidi miglioramenti delle prestazioni, l’industria ha ancora una visione limitata di come questi sistemi arrivano alle decisioni. Ad esempio, i nuovi modelli AI di ragionamento di Openai, O3 e O4-Miniesegui meglio su alcuni compiti ma allucina più di altri modelli, con l’azienda incerti sul perché.
Amodei osserva che i ricercatori di intelligenza artificiale hanno migliorato l’intelligenza del modello ma non capiscono appieno perché questi miglioramenti funzionino. Il co-fondatore antropico Chris Olah afferma che i modelli AI sono “coltivati più di quanto non siano costruiti”. Amodei avverte che raggiungere l’AGI senza capire come funzionano i modelli potrebbe essere pericoloso e crede che siamo più lontano dalla comprensione della piena comprensione dei modelli di intelligenza artificiale che dal raggiungimento dell’AGI, potenzialmente entro il 2026 o il 2027.
L’antropico mira a condurre “scansioni cerebrali” o “risonanza magnetica” di modelli AI all’avanguardia per identificare i problemi, comprese le tendenze a mentire o cercare potere. Ciò potrebbe richiedere dai 5 ai 10 anni, ma sarà necessario per i test e la distribuzione di modelli futuri. La compagnia ha fatto scoppioni nella traccia di percorsi di pensiero del modello AI attraverso “circuiti” e ha identificato un circuito che aiuta i modelli a comprendere le posizioni delle città degli Stati Uniti all’interno degli stati.
Antropico ha investito nella ricerca di interpretabilità e recentemente ha fatto il suo primo investimento in una startup lavorando sul campo. Amodei ritiene che spiegare come i modelli di intelligenza artificiale arrivano a risposte potrebbero presentare un vantaggio commerciale. Ha invitato Openai e Google DeepMind ad aumentare i loro sforzi di ricerca e ha chiesto ai governi di imporre regolamenti “topi leggeri” per incoraggiare la ricerca di interpretabilità.
Amodei ha anche suggerito che gli Stati Uniti dovrebbero imporre controlli di esportazione sui chip alla Cina per limitare la probabilità di una razza AI globale fuori controllo. Antropico si è concentrato sulla sicurezza, emettendo un modesto supporto per la fattura di sicurezza AI della California, SB 1047, che avrebbe fissato gli standard di reporting per la sicurezza per gli sviluppatori di modelli AI Frontier.
Antropico sta spingendo per uno sforzo a livello di settore per comprendere meglio i modelli di intelligenza artificiale, non solo per aumentare le loro capacità. Gli sforzi e le raccomandazioni dell’azienda evidenziano la necessità di un approccio collaborativo alla sicurezza e all’interpretazione dell’IA.