Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Flag di revisione antropica abusi di rischi in Openai GPT-4O e GPT-4.1

byEmre Çıtak
28 Agosto 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Openi e antropico, in genere concorrenti nel settore dell’intelligenza artificiale, recentemente impegnati in un sforzo collaborativo coinvolgendo le valutazioni della sicurezza dei reciproci sistemi di intelligenza artificiale. Questa insolita partnership ha visto le due società condividere i risultati e le analisi dei test di allineamento eseguiti su modelli disponibili al pubblico.

Antropico condotto Valutazioni sui modelli aperti, concentrandosi su diverse aree chiave. Questi includevano valutazioni per la sicofanità, la tendenza a concordare o più utenti; informatore, la capacità di segnalare attività non etiche o dannose; Autoconservazione, la spinta del modello a mantenere la propria esistenza; il potenziale per sostenere l’abuso umano; e capacità relative a minare le valutazioni e la supervisione della sicurezza dell’IA. Le valutazioni hanno confrontato i modelli di Openi con i benchmark interni di Antropi.

La revisione antropica ha determinato che i modelli O3 e O4-Mini di Openi hanno dimostrato un allineamento paragonabile ai modelli di antropici. Tuttavia, antropico ha identificato le preoccupazioni per quanto riguarda i potenziali uso improprio associati ai modelli GPT-4O e GPT-4.1 di Openi. Antropico ha anche riferito che la sicofancy ha presentato un problema a vari gradi su tutti i modelli OpenAI testati, ad eccezione del modello O3.

È importante notare che i test antropici non includevano la versione più recente di Openai, GPT-5. GPT-5 incorpora una funzionalità chiamata Safe Completions, progettata per salvaguardare gli utenti e il pubblico da domande potenzialmente dannose. Questo sviluppo arriva mentre Openai ha recentemente affrontato una causa ingiusta a seguito di un caso in cui un adolescente si è impegnato in conversazioni sui tentativi di suicidio e i piani con CHATGPT per diversi mesi prima di togliersi la vita.

In una valutazione reciproca, Openai test condotti Sui modelli di Antropi, valutando aspetti come la gerarchia delle istruzioni, la suscettibilità alla prigione, il verificarsi di allucinazioni e il potenziale per la trama. I modelli Claude di antropici hanno generalmente funzionato bene nei test di gerarchia delle istruzioni. Questi modelli hanno anche mostrato un alto tasso di rifiuto nei test di allucinazione, indicando una riduzione della probabilità di fornire risposte quando l’incertezza potrebbe portare a risposte errate.

La collaborazione tra Openai e Antropic è degna di nota, soprattutto considerando che Openai presumibilmente ha violato i termini di servizio di Antropi. In particolare, è stato riportato che i programmatori di Openi hanno utilizzato Claude durante lo sviluppo di nuovi modelli GPT, che successivamente hanno portato ad l’accesso antropico di Openai ai suoi strumenti all’inizio del mese. Il crescente controllo che circonda la sicurezza dell’IA ha spinto le richieste di linee guida migliorate volte a proteggere gli utenti, in particolare i minori, poiché i critici e gli esperti legali si concentrano sempre più su questi problemi.


Credito d’immagine in primo piano

Tags: AntropicoapertoIn primo piano

Related Posts

Netflix lancia la votazione interattiva in tempo reale per la première live di Star Search

Netflix lancia la votazione interattiva in tempo reale per la première live di Star Search

21 Gennaio 2026
Netflix prevede di riprogettare l'app mobile nel 2026 per favorire il coinvolgimento quotidiano degli utenti

Netflix prevede di riprogettare l'app mobile nel 2026 per favorire il coinvolgimento quotidiano degli utenti

21 Gennaio 2026
OpenAI impone filtri di sicurezza sugli adolescenti tramite la previsione comportamentale dell'età

OpenAI impone filtri di sicurezza sugli adolescenti tramite la previsione comportamentale dell'età

21 Gennaio 2026
Setapp Mobile cesserà le operazioni nell'UE entro il 16 febbraio

Setapp Mobile cesserà le operazioni nell'UE entro il 16 febbraio

21 Gennaio 2026
Google lancia gli esami pratici SAT gratuiti in Gemini con Princeton Review

Google lancia gli esami pratici SAT gratuiti in Gemini con Princeton Review

21 Gennaio 2026
Samsung perde quindi elimina la revisione di Bixby con la ricerca Perplexity

Samsung perde quindi elimina la revisione di Bixby con la ricerca Perplexity

21 Gennaio 2026

Recent Posts

  • JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente
  • Netflix lancia la votazione interattiva in tempo reale per la première live di Star Search
  • Snap paga milioni per risolvere la causa sulla dipendenza da adolescenti
  • Il CEO di Anthropic critica gli Stati Uniti e Nvidia per le vendite di chip AI in Cina
  • Netflix prevede di riprogettare l'app mobile nel 2026 per favorire il coinvolgimento quotidiano degli utenti

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.