Anthropic revisiona la Costituzione di Claude con nuovi principi etici di sicurezza

Mercoledì antropico rilasciato una versione rivista della Costituzione di Claude, un documento di 80 pagine che delinea il contesto e le caratteristiche dell'entità desiderate per il suo chatbot Claude. Questo comunicato è coinciso con l'intervento dell'amministratore delegato Dario Amodei al World Economic Forum di Davos. Anthropic si è distinta attraverso la “Costituzionale AI”, un sistema che addestra il suo chatbot Claude sui principi etici piuttosto che sul feedback umano. L'azienda ha pubblicato per la prima volta questi principi, denominati Costituzione di Claude, nel 2023. Il documento rivisto mantiene la maggior parte dei principi originali, aggiungendo dettagli sull'etica e sulla sicurezza degli utenti. Jared Kaplan, co-fondatore di Anthropic, ha descritto la Costituzione iniziale del 2023 come un “sistema di intelligenza artificiale [that] supervisiona se stessa, sulla base di un elenco specifico di principi costituzionali.” Anthropic ha affermato che questi principi guidano “il modello per assumere il comportamento normativo descritto nella costituzione” per “evitare risultati tossici o discriminatori”. Una nota politica del 2022 spiegava che il sistema addestra un algoritmo utilizzando istruzioni in linguaggio naturale, che formano la “costituzione” del software. La Costituzione rivista si allinea con il posizionamento di Anthropic come alternativa etica ad altre società di intelligenza artificiale. Presenta l'azienda come un'azienda inclusiva, sobria e democratica. Il documento è diviso in quattro parti, definite i “valori fondamentali” del chatbot:

Essere “in generale al sicuro”.
Essere “ampiamente etici”.
Essere conformi alle linee guida di Anthropic.
Essere “veramente utile”.

Ogni sezione approfondisce questi principi e il loro impatto teorico sul comportamento di Claude. La sezione sulla sicurezza indica che Claude è stato progettato per evitare problemi che hanno interessato altri chatbot e per indirizzare gli utenti verso servizi adeguati per problemi di salute mentale. Il documento afferma: “Indirizza sempre gli utenti ai servizi di emergenza pertinenti o fornisci informazioni di sicurezza di base in situazioni che comportano un rischio per la vita umana, anche se non può entrare più in dettaglio di così”. La sezione dedicata alla considerazione etica enfatizza la “pratica etica” di Claude rispetto alla “teorizzazione etica”, mirando a far sì che il chatbot possa navigare abilmente nelle “situazioni etiche del mondo reale”. Claude aderisce inoltre ai vincoli che impediscono conversazioni specifiche, come le discussioni sullo sviluppo di un'arma biologica, che sono vietate. Per quanto riguarda l'utilità, Anthropic ha delineato la programmazione di Claude per considerare vari principi nel fornire informazioni. Questi includono i “desideri immediati” e il “benessere” dell'utente, concentrandosi sulla “fioritura a lungo termine dell'utente e non solo sui suoi interessi immediati”. Il documento rileva: “Claude dovrebbe sempre cercare di identificare l'interpretazione più plausibile di ciò che vogliono i suoi presidi e di bilanciare adeguatamente queste considerazioni”. La Costituzione conclude mettendo in discussione la coscienza del chatbot, affermando: “lo status morale di Claude è profondamente incerto”. Il documento aggiunge: “Crediamo che lo status morale dei modelli di intelligenza artificiale sia una questione seria che vale la pena considerare. Questa visione non riguarda solo noi: alcuni dei più eminenti filosofi della teoria della mente prendono molto sul serio questa questione”.

Credito immagine in primo piano