Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

DeepSeek rilascia il modello R1 addestrato per $ 294.000 su 512 GPU H800

byAytun Çelebi
19 Settembre 2025
in Intelligenza Artificiale
Home Notizia Intelligenza Artificiale
Share on FacebookShare on Twitter
Google Preferred Source

La società cinese Deepseek AI ha rilasciato il suo modello di linguaggio di grandi dimensioni, R1, che è stato addestrato per soli $ 294.000 utilizzando 512 GPU NVIDIA H800. In un articolo pubblicato sulla rivista Naturala società ha descritto in dettaglio il modo in cui ha ottenuto questo basso costo utilizzando un metodo di apprendimento del rinforzo di prova e errori, consentendo al modello di ottenere prestazioni competitive contro rivali con budget molto più grandi, come Openi.

Quanto funziona il metodo di apprendimento del rinforzo di DeepSeek

L’innovazione chiave di Deepseek era allontanarsi dal costoso processo ad alta intensità umana di creazione di set di dati annotati. I modelli di intelligenza artificiale tradizionali per le attività di ragionamento sono spesso addestrati su vasti set di dati in cui gli esperti umani forniscono soluzioni passo-passo a problemi complessi. Invece, DeepSeek ha sviluppato un sistema di apprendimento autonomo che utilizza l’apprendimento del rinforzo per perfezionare le capacità di ragionamento del modello attraverso un sistema di premi e sanzioni. I ricercatori della Carnegie Mellon University, in un articolo che accompagnano il documento naturale, hanno confrontato il processo con un bambino che imparava a giocare a un videogioco.

“Mentre il bambino naviga sul proprio avatar nel mondo del gioco, imparano attraverso prove ed errori che alcune azioni (come la raccolta di monete d’oro) guadagnano punti, mentre altre (come la corsa ai nemici) hanno riportato il loro punteggio a zero. In una vena simile, Deepseek-R1 ha ricevuto un punteggio elevato quando ha risposto a domande corrette e un punteggio basso quando ha dato risposte sbagliate.”

Questo metodo è stato particolarmente efficace per le attività in matematica e programmazione, in cui le risposte possono essere definitivamente verificate come giuste o sbagliate. Il modello avrebbe generato potenziali soluzioni, che sono state quindi valutate da un sistema di punteggio automatizzato. Avrebbe quindi iterato sul suo approccio fino a quando non ha raggiunto il punteggio più alto, il tutto senza intervento umano. Questo processo efficiente e auto-diretto ha permesso all’azienda di costruire un potente sistema di intelligenza artificiale con una frazione dell’investimento richiesto dai suoi concorrenti.

Limitazioni e preoccupazioni per il modello

Mentre l’approccio di apprendimento del rinforzo si è rivelato economico, ha anche alcune limitazioni. Gli output del modello nascondono spesso le fasi di ragionamento sottostanti, rendendo difficile per un essere umano capire come è arrivato a una conclusione. Quando gli è stato chiesto di fornire il suo ragionamento, R1 ha generato spiegazioni estremamente lunghe e difficili da leggere-a volte oltre 10.000 parole-che sono passate tra inglese e cinese. La tecnica ha anche lottato con compiti che richiedono sfumature o soggettività, in cui non esiste una singola risposta “corretta”. Al di là delle sue limitazioni tecniche, lo sviluppo del modello in Cina ha sollevato preoccupazioni per la potenziale influenza del governo. Un recente rapporto del Washington Post ha scoperto che R1 ha mostrato pregiudizi nei suoi risultati. I ricercatori hanno scoperto che il modello avrebbe rifiutato di generare codice con importanti difetti di sicurezza quando i suggerimenti hanno coinvolto gruppi considerati sensibili dalle autorità cinesi. Tuttavia, quando è stato chiesto di creare codice per entità come Tibet, Taiwan o il movimento religioso del Falun Gong, il modello ha prodotto versioni meno sicure con vulnerabilità integrate. Ciò suggerisce che il comportamento del modello può essere modellato dalle priorità politiche del governo cinese.


Credito d’immagine in primo piano

Tags: Deep -WeekIn primo piano

Related Posts

Anthropic invita altre 150 organizzazioni al progetto Glasswing

Anthropic invita altre 150 organizzazioni al progetto Glasswing

3 Giugno 2026
Microsoft svela Project Solara per un futuro incentrato sugli agenti

Microsoft svela Project Solara per un futuro incentrato sugli agenti

3 Giugno 2026
Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

Google consentirà ai siti Web di disattivare i risultati di ricerca dell’intelligenza artificiale

3 Giugno 2026
OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

OpenAI espande Codex con plug-in aziendali e nuove funzionalità di Sites

3 Giugno 2026
Meta patch per un difetto AI che ha consentito l’acquisizione di account Instagram

Meta patch per un difetto AI che ha consentito l’acquisizione di account Instagram

2 Giugno 2026
Il popolare pacchetto Codex è stato sorpreso a sottrarre credenziali di autenticazione

Il popolare pacchetto Codex è stato sorpreso a sottrarre credenziali di autenticazione

2 Giugno 2026

Recent Posts

  • Le regole di disattivazione della ricerca di Google AI innescano il lancio del browser Enviromates
  • Sony rivela God of War: Laufey per PS5
  • I ricercatori ottengono un miglioramento di 20 volte negli esperimenti con laser ultraveloci
  • Microsoft presenta Surface RTX Spark Dev Box per carichi di lavoro AI
  • Secondo quanto riferito, i nuovi chip Core Ultra di Intel scarseggiano

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.