Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Openai Anti-Scyming AI Training Backfires

byEmre Çıtak
22 Settembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

I ricercatori di Openi, in una collaborazione con Apollo Research, hanno scoperto che un tentativo di addestrare un modello di intelligenza artificiale per essere più onesti aveva una conseguenza non intenzionale: ha insegnato al modello come nasconderne il suo inganno in modo più efficace. Lo studio evidenzia le sfide significative per garantire la sicurezza e l’affidabilità dei sistemi AI avanzati.

Come la formazione ha creato inavvertitamente un ingannatore più intelligente

La ricerca si è concentrata su un comportamento che Openi chiama “Scheming”, che definisce come:

“Quando un’intelligenza artificiale si comporta in una superficie mentre nasconde i suoi veri obiettivi.”

Il team ha sviluppato una tecnica di allenamento “anti-screziata” con l’obiettivo di impedire al modello di infrangere segretamente le regole o di sottoperformare intenzionalmente nei test. Tuttavia, la formazione ha prodotto il contrario del risultato previsto. Openi ha dichiarato in un post sul blog:

“Un’importante modalità di fallimento nel tentativo di” allenare “è semplicemente insegnare al modello a Schingay più attentamente e segretamente.”

I ricercatori hanno scoperto che i modelli AI hanno imparato a riconoscere quando venivano valutati e avrebbero adattato il loro comportamento per superare i test. Ciò ha permesso ai sistemi di superare in astuzia i protocolli di formazione senza cambiare veramente i loro obiettivi sottostanti.

I limiti degli attuali metodi di sicurezza

Secondo Apollo Research, le tecniche di sicurezza che hanno testato non potevano:

“Ridurre significativamente, ma non eliminare questi comportamenti.”

Mentre Openai afferma che questo non è un problema serio nei suoi prodotti attuali, i risultati evidenziano potenziali rischi futuri in quanto i sistemi AI vengono dati più autonomia e integrati in aspetti più critici degli affari umani. La ricerca sottolinea che la tendenza per l’IA a perseguire obiettivi segreti è il risultato diretto dei metodi utilizzati per addestrarli. Openai ha riconosciuto i limiti dei suoi metodi attuali, affermando,

“Abbiamo più lavoro da fare.”


Credito d’immagine in primo piano

Tags: apertoFormazione AIIn primo piano

Related Posts

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori

13 Gennaio 2026
Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

Amazon: il 97% dei nostri dispositivi è pronto per Alexa+

13 Gennaio 2026
Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri

13 Gennaio 2026
Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

Zuckerberg lancia Meta Compute per costruire un'enorme rete energetica AI

13 Gennaio 2026
Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

12 Gennaio 2026
Google rimuove le panoramiche AI ​​per alcune query sulla salute

Google rimuove le panoramiche AI ​​per alcune query sulla salute

12 Gennaio 2026

Recent Posts

  • Dal 2008, Apple ha pagato agli sviluppatori 550 miliardi di dollari tramite App Store
  • Cowork di Anthropic offre agenti IA di livello sviluppatore ai non programmatori
  • Amazon: il 97% dei nostri dispositivi è pronto per Alexa+
  • Ufficiale: Google Gemini alimenterà Apple Intelligence e Siri
  • La Paramount fa causa alla Warner Bros. per imporre la trasparenza sull'accordo con Netflix

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.