Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Flag di revisione antropica abusi di rischi in Openai GPT-4O e GPT-4.1

byEmre Çıtak
28 Agosto 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Openi e antropico, in genere concorrenti nel settore dell’intelligenza artificiale, recentemente impegnati in un sforzo collaborativo coinvolgendo le valutazioni della sicurezza dei reciproci sistemi di intelligenza artificiale. Questa insolita partnership ha visto le due società condividere i risultati e le analisi dei test di allineamento eseguiti su modelli disponibili al pubblico.

Antropico condotto Valutazioni sui modelli aperti, concentrandosi su diverse aree chiave. Questi includevano valutazioni per la sicofanità, la tendenza a concordare o più utenti; informatore, la capacità di segnalare attività non etiche o dannose; Autoconservazione, la spinta del modello a mantenere la propria esistenza; il potenziale per sostenere l’abuso umano; e capacità relative a minare le valutazioni e la supervisione della sicurezza dell’IA. Le valutazioni hanno confrontato i modelli di Openi con i benchmark interni di Antropi.

La revisione antropica ha determinato che i modelli O3 e O4-Mini di Openi hanno dimostrato un allineamento paragonabile ai modelli di antropici. Tuttavia, antropico ha identificato le preoccupazioni per quanto riguarda i potenziali uso improprio associati ai modelli GPT-4O e GPT-4.1 di Openi. Antropico ha anche riferito che la sicofancy ha presentato un problema a vari gradi su tutti i modelli OpenAI testati, ad eccezione del modello O3.

È importante notare che i test antropici non includevano la versione più recente di Openai, GPT-5. GPT-5 incorpora una funzionalità chiamata Safe Completions, progettata per salvaguardare gli utenti e il pubblico da domande potenzialmente dannose. Questo sviluppo arriva mentre Openai ha recentemente affrontato una causa ingiusta a seguito di un caso in cui un adolescente si è impegnato in conversazioni sui tentativi di suicidio e i piani con CHATGPT per diversi mesi prima di togliersi la vita.

In una valutazione reciproca, Openai test condotti Sui modelli di Antropi, valutando aspetti come la gerarchia delle istruzioni, la suscettibilità alla prigione, il verificarsi di allucinazioni e il potenziale per la trama. I modelli Claude di antropici hanno generalmente funzionato bene nei test di gerarchia delle istruzioni. Questi modelli hanno anche mostrato un alto tasso di rifiuto nei test di allucinazione, indicando una riduzione della probabilità di fornire risposte quando l’incertezza potrebbe portare a risposte errate.

La collaborazione tra Openai e Antropic è degna di nota, soprattutto considerando che Openai presumibilmente ha violato i termini di servizio di Antropi. In particolare, è stato riportato che i programmatori di Openi hanno utilizzato Claude durante lo sviluppo di nuovi modelli GPT, che successivamente hanno portato ad l’accesso antropico di Openai ai suoi strumenti all’inizio del mese. Il crescente controllo che circonda la sicurezza dell’IA ha spinto le richieste di linee guida migliorate volte a proteggere gli utenti, in particolare i minori, poiché i critici e gli esperti legali si concentrano sempre più su questi problemi.


Credito d’immagine in primo piano

Tags: AntropicoapertoIn primo piano

Related Posts

Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11

Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11

19 Gennaio 2026
Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X

Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X

19 Gennaio 2026
Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10

Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10

19 Gennaio 2026
iOS 27: tutto ciò che sappiamo finora

iOS 27: tutto ciò che sappiamo finora

19 Gennaio 2026
Walmart mantiene il divieto di Apple Pay nei negozi statunitensi per il 2026

Walmart mantiene il divieto di Apple Pay nei negozi statunitensi per il 2026

19 Gennaio 2026
Nvidia raggiunge i 200 teraFLOP emulati FP64 per il calcolo scientifico

Nvidia raggiunge i 200 teraFLOP emulati FP64 per il calcolo scientifico

19 Gennaio 2026

Recent Posts

  • Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11
  • Musk cerca 134 miliardi di dollari da OpenAI e Microsoft
  • Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X
  • Le integrazioni di Google Wallet e Tasks emergono nella nuova perdita di Pixel 10
  • iOS 27: tutto ciò che sappiamo finora

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.