La società cinese Deepseek AI ha rilasciato il suo modello di linguaggio di grandi dimensioni, R1, che è stato addestrato per soli $ 294.000 utilizzando 512 GPU NVIDIA H800. In un articolo pubblicato sulla rivista Naturala società ha descritto in dettaglio il modo in cui ha ottenuto questo basso costo utilizzando un metodo di apprendimento del rinforzo di prova e errori, consentendo al modello di ottenere prestazioni competitive contro rivali con budget molto più grandi, come Openi.
Quanto funziona il metodo di apprendimento del rinforzo di DeepSeek
L’innovazione chiave di Deepseek era allontanarsi dal costoso processo ad alta intensità umana di creazione di set di dati annotati. I modelli di intelligenza artificiale tradizionali per le attività di ragionamento sono spesso addestrati su vasti set di dati in cui gli esperti umani forniscono soluzioni passo-passo a problemi complessi. Invece, DeepSeek ha sviluppato un sistema di apprendimento autonomo che utilizza l’apprendimento del rinforzo per perfezionare le capacità di ragionamento del modello attraverso un sistema di premi e sanzioni. I ricercatori della Carnegie Mellon University, in un articolo che accompagnano il documento naturale, hanno confrontato il processo con un bambino che imparava a giocare a un videogioco.
“Mentre il bambino naviga sul proprio avatar nel mondo del gioco, imparano attraverso prove ed errori che alcune azioni (come la raccolta di monete d’oro) guadagnano punti, mentre altre (come la corsa ai nemici) hanno riportato il loro punteggio a zero. In una vena simile, Deepseek-R1 ha ricevuto un punteggio elevato quando ha risposto a domande corrette e un punteggio basso quando ha dato risposte sbagliate.”
Questo metodo è stato particolarmente efficace per le attività in matematica e programmazione, in cui le risposte possono essere definitivamente verificate come giuste o sbagliate. Il modello avrebbe generato potenziali soluzioni, che sono state quindi valutate da un sistema di punteggio automatizzato. Avrebbe quindi iterato sul suo approccio fino a quando non ha raggiunto il punteggio più alto, il tutto senza intervento umano. Questo processo efficiente e auto-diretto ha permesso all’azienda di costruire un potente sistema di intelligenza artificiale con una frazione dell’investimento richiesto dai suoi concorrenti.
Limitazioni e preoccupazioni per il modello
Mentre l’approccio di apprendimento del rinforzo si è rivelato economico, ha anche alcune limitazioni. Gli output del modello nascondono spesso le fasi di ragionamento sottostanti, rendendo difficile per un essere umano capire come è arrivato a una conclusione. Quando gli è stato chiesto di fornire il suo ragionamento, R1 ha generato spiegazioni estremamente lunghe e difficili da leggere-a volte oltre 10.000 parole-che sono passate tra inglese e cinese. La tecnica ha anche lottato con compiti che richiedono sfumature o soggettività, in cui non esiste una singola risposta “corretta”. Al di là delle sue limitazioni tecniche, lo sviluppo del modello in Cina ha sollevato preoccupazioni per la potenziale influenza del governo. Un recente rapporto del Washington Post ha scoperto che R1 ha mostrato pregiudizi nei suoi risultati. I ricercatori hanno scoperto che il modello avrebbe rifiutato di generare codice con importanti difetti di sicurezza quando i suggerimenti hanno coinvolto gruppi considerati sensibili dalle autorità cinesi. Tuttavia, quando è stato chiesto di creare codice per entità come Tibet, Taiwan o il movimento religioso del Falun Gong, il modello ha prodotto versioni meno sicure con vulnerabilità integrate. Ciò suggerisce che il comportamento del modello può essere modellato dalle priorità politiche del governo cinese.





