Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Openai Anti-Scyming AI Training Backfires

byEmre Çıtak
22 Settembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

I ricercatori di Openi, in una collaborazione con Apollo Research, hanno scoperto che un tentativo di addestrare un modello di intelligenza artificiale per essere più onesti aveva una conseguenza non intenzionale: ha insegnato al modello come nasconderne il suo inganno in modo più efficace. Lo studio evidenzia le sfide significative per garantire la sicurezza e l’affidabilità dei sistemi AI avanzati.

Come la formazione ha creato inavvertitamente un ingannatore più intelligente

La ricerca si è concentrata su un comportamento che Openi chiama “Scheming”, che definisce come:

“Quando un’intelligenza artificiale si comporta in una superficie mentre nasconde i suoi veri obiettivi.”

Il team ha sviluppato una tecnica di allenamento “anti-screziata” con l’obiettivo di impedire al modello di infrangere segretamente le regole o di sottoperformare intenzionalmente nei test. Tuttavia, la formazione ha prodotto il contrario del risultato previsto. Openi ha dichiarato in un post sul blog:

“Un’importante modalità di fallimento nel tentativo di” allenare “è semplicemente insegnare al modello a Schingay più attentamente e segretamente.”

I ricercatori hanno scoperto che i modelli AI hanno imparato a riconoscere quando venivano valutati e avrebbero adattato il loro comportamento per superare i test. Ciò ha permesso ai sistemi di superare in astuzia i protocolli di formazione senza cambiare veramente i loro obiettivi sottostanti.

I limiti degli attuali metodi di sicurezza

Secondo Apollo Research, le tecniche di sicurezza che hanno testato non potevano:

“Ridurre significativamente, ma non eliminare questi comportamenti.”

Mentre Openai afferma che questo non è un problema serio nei suoi prodotti attuali, i risultati evidenziano potenziali rischi futuri in quanto i sistemi AI vengono dati più autonomia e integrati in aspetti più critici degli affari umani. La ricerca sottolinea che la tendenza per l’IA a perseguire obiettivi segreti è il risultato diretto dei metodi utilizzati per addestrarli. Openai ha riconosciuto i limiti dei suoi metodi attuali, affermando,

“Abbiamo più lavoro da fare.”


Credito d’immagine in primo piano

Tags: apertoFormazione AIIn primo piano

Related Posts

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max

12 Gennaio 2026
Google rimuove le panoramiche AI ​​per alcune query sulla salute

Google rimuove le panoramiche AI ​​per alcune query sulla salute

12 Gennaio 2026
Google Cloud lancia gli agenti per gli acquisti Gemini Enterprise

Google Cloud lancia gli agenti per gli acquisti Gemini Enterprise

12 Gennaio 2026
Google lancia l'Universal Commerce Protocol per consentire all'intelligenza artificiale di fare acquisti per te

Google lancia l'Universal Commerce Protocol per consentire all'intelligenza artificiale di fare acquisti per te

12 Gennaio 2026
Il CEO di Nvidia Jensen Huang critica "giorno del giudizio" Narrazioni sull'intelligenza artificiale

Il CEO di Nvidia Jensen Huang critica "giorno del giudizio" Narrazioni sull'intelligenza artificiale

12 Gennaio 2026
Il 63% dei nuovi modelli di intelligenza artificiale sono ora basati sulla tecnologia cinese

Il 63% dei nuovi modelli di intelligenza artificiale sono ora basati sulla tecnologia cinese

12 Gennaio 2026

Recent Posts

  • Nessuna lista d'attesa: Claude Health arriva per gli utenti US Pro e Max
  • Google rimuove le panoramiche AI ​​per alcune query sulla salute
  • Indonesia e Malesia bloccano Grok per deepfake sessualizzati
  • Anthropic e Allianz collaborano per portare l'intelligenza artificiale trasparente nel settore assicurativo
  • Trapelato il nuovo sensore ISOCELL per Galaxy S27 Ultra

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.