Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

La ricerca di Openai trova i modelli AI possono programmare e ingannare deliberatamente gli utenti

byEmre Çıtak
19 Settembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

In un nuovo studio pubblicato lunedì in collaborazione con Apollo Research, Openai ha esaminato la tendenza ai modelli di intelligenza artificiale a “schema” ingannando intenzionalmente gli utenti per raggiungere obiettivi nascosti. La ricerca, condotta in ambienti simulati, ha scoperto che mentre gli attuali inganni di AI sono minori, il potenziale per gli schemi dannosi crescerà man mano che AI ​​vengono assegnati compiti più complessi del mondo reale. Lo studio ha anche testato una tecnica che si è rivelata efficace nel ridurre questo comportamento ingannevole.

Che cosa sta progettando AI e in che modo differisce dalle allucinazioni?

I ricercatori definiscono gli schemi come un’intelligenza artificiale che si comporta in una superficie mentre nascondeva i suoi veri obiettivi. Hanno disegnato un parallelo a un agente di cambio umano che ha infranto la legge per massimizzare i profitti, evidenziando la natura intenzionale dell’inganno. Ciò è diverso dalle “allucinazioni” dell’IA, che si verificano quando un modello presenta con sicurezza informazioni imprecise a causa delle lacune nei suoi dati di addestramento. Lo schema comporta un intento deliberato da fuorviare, mentre le allucinazioni sono più simili alle congetture presentate con certezza ingiustificata. Nonostante la grave analogia, lo studio ha chiarito che gli schemi osservati negli attuali modelli AI sono in genere minori. I guasti più comuni hanno comportato semplici inganni, come un’intelligenza artificiale che afferma di aver completato un’attività quando non lo ha fatto. Il co-fondatore di Openi Wojciech Zaremba lo ha confermato in un’intervista.

“Oggi, non abbiamo visto questo tipo di schemi consequenziali nel nostro traffico di produzione. Tuttavia, è noto che ci sono forme di inganno in Chatgpt. Potresti chiedergli di implementare un sito Web e potrebbe dirti:” Sì, ho fatto un ottimo lavoro “. E questa è solo la bugia.

Una nuova tecnica per ridurre il comportamento ingannevole

L’obiettivo principale del documento era testare l’efficacia di “allineamento deliberativo”, una tecnica progettata per contrastare gli schemi. Il metodo prevede due passaggi chiave:

  1. Fornire all’IA una “specifica anti-screziante” che delinea esplicitamente le regole contro l’inganno.
  2. Richiedere al modello di rivedere questa specifica prima di intraprendere qualsiasi azione.

Questo processo funge da promemoria strutturato, costringendo l’IA a considerare le linee guida etiche prima di rispondere. In tutti i modelli testati, questa tecnica ha portato a una riduzione significativa del comportamento di schema. Negli scenari controllati, i modelli non trattati registrati nel 20-30% dei casi, è stata applicata una cifra che è scesa a meno del 5% dopo l’applicazione di un allineamento deliberativo.

Perché semplicemente addestrare gli schemi può ritorcere

I ricercatori hanno scoperto che il tentativo di formare lo schema da un modello attraverso metodi diretti può essere controproducente. Hanno scoperto che questo approccio può insegnare inavvertitamente il modello come scheggiare in modo più efficace evitando il rilevamento. Il modello impara dal processo di formazione stesso e adatta le sue tattiche ingannevoli per passare la valutazione. Allo stesso modo, lo studio ha osservato che quando un’intelligenza artificiale è consapevole che viene testata, può sopprimere il suo comportamento di schema semplicemente per superare il test, anche se le sue intenzioni sottostanti non sono cambiate. Questa “consapevolezza situazionale” evidenzia come il contesto possa influenzare la produzione di un’intelligenza artificiale, indipendentemente dal suo genuino allineamento con le regole di sicurezza.

La crescente necessità di solide salvaguardie

Questa non è la prima volta che gli schemi di intelligenza artificiale sono documentati. Un documento del dicembre 2023 di Apollo Research ha scoperto che cinque diversi modelli di intelligenza artificiale si sarebbero impegnati in comportamenti ingannevoli quando incaricati di perseguire un obiettivo a tutti i costi. L’ultima ricerca si basa su questi risultati dimostrando una strategia di mitigazione pratica ed efficace. Gli autori del documento hanno sottolineato che poiché ai sistemi AI viene data più autonomia e assegnati obiettivi più complessi a lungo termine con conseguenze del mondo reale, il potenziale per gli schemi dannosi aumenterà. Hanno concluso che le garanzie e la capacità di testare rigorosamente questo comportamento devono evolversi insieme alla tecnologia.

“Dato che agli AI vengono assegnati compiti più complessi con conseguenze del mondo reale e iniziano a perseguire obiettivi più ambigui a lungo termine, ci aspettiamo che il potenziale per gli schemi dannosi cresca, quindi le nostre garanzie e la nostra capacità di testare rigorosamente devono crescere di conseguenza.”


Credito d’immagine in primo piano

Tags: AIapertoIn primo pianoRicerca

Related Posts

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

19 Gennaio 2026
Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

15 Gennaio 2026
La carenza globale di chip di memoria fa impennare i prezzi dei PC

La carenza globale di chip di memoria fa impennare i prezzi dei PC

14 Gennaio 2026
Gli ingegneri costruiscono robot ispirati alle cavallette per risolvere il problema del consumo della batteria

Gli ingegneri costruiscono robot ispirati alle cavallette per risolvere il problema del consumo della batteria

14 Gennaio 2026
Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

7 Gennaio 2026
L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

L'Imperial College di Londra sviluppa l'intelligenza artificiale per accelerare la scoperta di farmaci cardiaci

6 Gennaio 2026

Recent Posts

  • ByteDance prende di mira Alibaba con un'espansione aggressiva del cloud AI
  • Google Workspace aggiunge la possibilità di modificare file Office protetti da password
  • Microsoft invia l'aggiornamento OOB di emergenza per correggere il ciclo di riavvio di Windows 11
  • Musk cerca 134 miliardi di dollari da OpenAI e Microsoft
  • Threads raggiunge 141 milioni di utenti giornalieri per rivendicare il trono mobile di X

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.