Flag di revisione antropica abusi di rischi in Openai GPT-4O e GPT-4.1

Openi e antropico, in genere concorrenti nel settore dell’intelligenza artificiale, recentemente impegnati in un sforzo collaborativo coinvolgendo le valutazioni della sicurezza dei reciproci sistemi di intelligenza artificiale. Questa insolita partnership ha visto le due società condividere i risultati e le analisi dei test di allineamento eseguiti su modelli disponibili al pubblico.

Antropico condotto Valutazioni sui modelli aperti, concentrandosi su diverse aree chiave. Questi includevano valutazioni per la sicofanità, la tendenza a concordare o più utenti; informatore, la capacità di segnalare attività non etiche o dannose; Autoconservazione, la spinta del modello a mantenere la propria esistenza; il potenziale per sostenere l’abuso umano; e capacità relative a minare le valutazioni e la supervisione della sicurezza dell’IA. Le valutazioni hanno confrontato i modelli di Openi con i benchmark interni di Antropi.

La revisione antropica ha determinato che i modelli O3 e O4-Mini di Openi hanno dimostrato un allineamento paragonabile ai modelli di antropici. Tuttavia, antropico ha identificato le preoccupazioni per quanto riguarda i potenziali uso improprio associati ai modelli GPT-4O e GPT-4.1 di Openi. Antropico ha anche riferito che la sicofancy ha presentato un problema a vari gradi su tutti i modelli OpenAI testati, ad eccezione del modello O3.

È importante notare che i test antropici non includevano la versione più recente di Openai, GPT-5. GPT-5 incorpora una funzionalità chiamata Safe Completions, progettata per salvaguardare gli utenti e il pubblico da domande potenzialmente dannose. Questo sviluppo arriva mentre Openai ha recentemente affrontato una causa ingiusta a seguito di un caso in cui un adolescente si è impegnato in conversazioni sui tentativi di suicidio e i piani con CHATGPT per diversi mesi prima di togliersi la vita.

In una valutazione reciproca, Openai test condotti Sui modelli di Antropi, valutando aspetti come la gerarchia delle istruzioni, la suscettibilità alla prigione, il verificarsi di allucinazioni e il potenziale per la trama. I modelli Claude di antropici hanno generalmente funzionato bene nei test di gerarchia delle istruzioni. Questi modelli hanno anche mostrato un alto tasso di rifiuto nei test di allucinazione, indicando una riduzione della probabilità di fornire risposte quando l’incertezza potrebbe portare a risposte errate.

La collaborazione tra Openai e Antropic è degna di nota, soprattutto considerando che Openai presumibilmente ha violato i termini di servizio di Antropi. In particolare, è stato riportato che i programmatori di Openi hanno utilizzato Claude durante lo sviluppo di nuovi modelli GPT, che successivamente hanno portato ad l’accesso antropico di Openai ai suoi strumenti all’inizio del mese. Il crescente controllo che circonda la sicurezza dell’IA ha spinto le richieste di linee guida migliorate volte a proteggere gli utenti, in particolare i minori, poiché i critici e gli esperti legali si concentrano sempre più su questi problemi.

Credito d’immagine in primo piano