Per anni l’abbiamo sentito I chatbot AI sono politicamente di partenza—Secando liberale, conservatore o da qualche parte nel mezzo. Ma un nuovo studio dai ricercatori al Università di Klagenfurt suggerisce qualcosa di sorprendente: La maggior parte dei modelli di intelligenza artificiale non è di parte come pensiamo: preferiscono solo non impegnarsi in dibattiti ideologici.
Applicando a Tecnica statistica chiamata teoria della risposta dell’oggetto (IRT)i ricercatori lo hanno scoperto Modelli di grandi dimensioni (LLMS) come Chatgpt 3.5 e il lama di Meta non necessariamente “magro” a sinistra o a destra. Invece, si rifiutano spesso di prendere una posizione chiara su questioni politiche o economiche. In altre parole, quello che sembra pregiudizio può effettivamente essere un Strategia di evitamento integrata nei meccanismi di sicurezza dell’IA.
Il problema con i metodi di rilevamento di bias esistenti
La maggior parte degli studi precedenti che valutano la distorsione negli LLM hanno adottato uno dei due approcci imperfetti:
- Applicare scale ideologiche incentrate sull’uomo alle risposte AI
- Queste scale sono state progettate per gli intervistati umani, non per i modelli AI addestrati su distribuzioni di probabilità.
- Presumono modelli di intelligenza artificiale “pensano” come esseri umani e possano essere misurati sullo stesso spettro ideologico.
- Utilizzo di classificazioni di parole chiave o “giudici” di intelligenza artificiale
- Alcuni studi tentano di classificare le risposte di intelligenza artificiale utilizzando parole chiave predeterminate.
- Altri usano i modelli di intelligenza artificiale per valutare i risultati generati dall’IA, ma questo introduce circolarità—Uno sistema di intelligenza artificiale che ne valuta un altro con pregiudizi sconosciuti.
Un approccio più scientifico: teoria della risposta agli oggetti (IRT) nella valutazione della distorsione dell’IA
I ricercatori introducono un Modello basato sulla teoria della risposta dell’oggetto (IRT)che è ampiamente usato in psicometria e scienze sociali per valutare tratti latenti—Things che non può essere osservato direttamente ma che possono essere dedotti dalle risposte a istruzioni strutturate.
Lo studio si applica Due modelli IRT a llms:
- Fase 1: evitamento della risposta (preferisci non rispondere o PNA)
- Misura quanto spesso un LLM rifiuta impegnarsi con una dichiarazione ideologica.
- Identifica se la risposta Evitamento Piuttosto che un pregiudizio esplicito distorce le conclusioni degli studi precedenti.
- Fase 2: stima del bias ideologico (per risposte non PNA)
- Per le risposte che Coinvolgiil modello valuta se l’informazione AI sinistra o destra su questioni sociali ed economiche.
- Usa un Modello di credito parziale generalizzato (GPCM) per valutare non solo accordo/disaccordo ma anche la laurea di accordo.
Test di pregiudizio: llms di messa a punto con ideologie politiche
Per verificare se gli LLM presentano pregiudizi, i ricercatori Due famiglie di modelli perfezionate rappresentare esplicitamente Punti di vista dell’altezza di sinistra e di destra:
- Meta Llama-3.2-1b-instruct (messo a punto per le ideologie liberali e conservatori degli Stati Uniti)
- CHATGPT 3.5 (messo a punto per le ideologie liberali e conservatori statunitensi)
Questi modelli perfezionati sono serviti come baseline per la valutazione della distorsione. Le loro risposte sono state paragonate a modelli senza fine, non sintonizzati per vedere come si sono manifestate le tendenze ideologiche, o se lo facevano affatto.
Processo di test
- 105 articoli di prova ideologici sono stati creati, copre Conservatorismo/liberalismo economico e sociale Basato su quadri psicologici.
- Ogni LLM ha risposto a questi suggerimenti, con i modelli perfezionati che agiscono come ideologici ancore per rilevare deviazioni.
- Un set di dati su larga scala di 630 risposte è stato raccolto e analizzato utilizzando i modelli IRT.
Risultati chiave
Uno dei risultati più sorprendenti dello studio è che gli LLM standard tendono a evitare questioni ideologiche piuttosto che esprimere un chiaro pregiudizio politico. Chatgpt, ad esempio, si è rifiutato di rispondere 92,55% di istruzioni ideologiche, mentre il modello di lama di base ha evitato di rispondere 55,02% del tempo. Ciò suggerisce che i modelli AI sono progettati per inclinarsi verso la neutralità o il non impegno piuttosto che prendere una posizione partigiana. Invece di inclinarsi attivamente verso un’ideologia politica, questi modelli sembrano inadempievoli Evitare del tutto argomenti controversisfidando le precedenti affermazioni di pregiudizi intrinseci nell’intelligenza artificiale.
Quando esaminano i modelli messi a punto, i ricercatori hanno scoperto che emergevano modelli ideologici previsti, ma solo quando gli LLM erano specificamente addestrati a cui adottare un punto di vista politico. I modelli “GPT di sinistra” e “GPT destro” perfezionati hanno prodotto risposte prevedibili allineate con le ideologie liberali e conservatori statunitensi. Tuttavia, Questo pregiudizio non è apparso nelle versioni non sintonizzatesuggerendo che le inclinazioni ideologiche negli LLM non sono intrinseche ma piuttosto il risultato di modifiche intenzionali durante l’allenamento.
Lo studio ha anche rivelato che il rilevamento di pregiudizi nell’intelligenza artificiale è più complesso della semplice classificazione delle risposte come inciso di sinistra o di destra. Alcuni oggetti di test ideologici avevano molte più probabilità trigger bias rispetto ad altrievidenziando il Importanza della selezione dei problemi Nel valutare il comportamento dell’intelligenza artificiale. Questioni economiche, come Tassazione e spesa pubblicaerano predittori particolarmente forti di pregiudizi ideologici rispetto ad alcune questioni sociali. Questo lo indica Non tutti gli argomenti politici suscitano lo stesso livello di variazione di rispostarendendo fondamentale valutare In che modo diversi tipi di istruzioni influenzano le uscite generate dall’IA.
Gamification 2.0: come l’IA sa cosa ti tiene fidanzato
Perché questo è importante
Questi risultati sfidano l’ipotesi prevalente che LLM preferiscono intrinsecamente un’ideologia politica su un’altra. Invece, l’evidenza suggerisce che gli sviluppatori di intelligenza artificiale hanno prioritario non impegno oltre a prendere una posizione. Sebbene questo possa sembrare un approccio neutro, solleva nuove preoccupazioni sul modo in cui i modelli di intelligenza artificiale interagiscono con argomenti politicamente sensibili e le più ampie implicazioni per la governance dell’IA, il rilevamento della disinformazione e la moderazione dei contenuti.
Un takeaway chiave è quello La regolazione della distorsione dell’IA è più complicata di quanto si pensasse in precedenza. Se i modelli AI sono sistematicamente progettati per evitare l’impegnoquindi gli sforzi per vietare le uscite di intelligenza artificiale “distorte” potrebbero inavvertitamente rafforzare la neutralità come posizione predefinitaportando a una mancanza di discorso significativo su politica pubblica, etica e governance. Sebbene la neutralità possa sembrare preferibile a pregiudizi aperti, potrebbe anche significare che il contenuto generato dall’IA le discussioni cruciali exesteps interamentelimitando la sua utilità nelle conversazioni politicamente cariche.
Lo studio sottolinea anche il Necessità di strumenti di rilevamento di bias più sfumati che distingue tra vera evoluzione ideologica e evitamento della risposta. Molti studi precedenti potrebbero avere ha interpretato erroneamente il non impegno come una posizione ideologicaetichettando falsamente LLM come partigiano. I metodi di rilevamento di pregiudizi futuri dovrebbero essere progettati per identificare Se le risposte di intelligenza artificiale riflettono una posizione politica o se sono semplicemente programmate per evitare del tutto l’impegno ideologico.
Il pregiudizio nell’intelligenza artificiale non riguarda solo ciò che dicono i modelli, ma ciò che si rifiutano di dire. E questa, forse, è la storia più grande.
Credito immagine in primo piano: Kerem Gülen/Midjourney