Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

DeepSeek rivela l'architettura MODEL1 nell'aggiornamento GitHub prima della V4

byKerem Gülen
21 Gennaio 2026
in Intelligenza Artificiale, Notizia
Home Notizia Intelligenza Artificiale
Share on FacebookShare on Twitter
Google Preferred Source

DeepSeek ha rivelato i dettagli di un nuovo modello denominato “MODEL1” attraverso i recenti aggiornamenti al suo codice base FlashMLA GitHub. L'identificatore “MODEL1” appare 28 volte in 114 file all'interno del repository, segnando la divulgazione in occasione dell'anniversario di un anno dal rilascio R1 dell'azienda. Questo sviluppo fa seguito ai rapporti secondo cui DeepSeek prevede di rilasciare il suo modello V4 di prossima generazione intorno a metà febbraio 2026, in coincidenza con il capodanno lunare. L'analisi della base di codice aggiornata da parte degli sviluppatori indica che MODEL1 presenta un'architettura distinta da DeepSeek-V3.2, nome in codice “V32” nel repository. Le discrepanze logiche del codice suggeriscono cambiamenti nel layout della cache dei valori-chiave, nella gestione della scarsità e nella decodifica del formato dati FP8, indicando una ristrutturazione per l'ottimizzazione della memoria e l'efficienza computazionale. Ricercatori della comunità LocalLLaMA di Reddit notato l'aggiornamento del codice sorgente FlashMLA ha aggiunto un ampio supporto MODEL1, inclusa la compatibilità con la prossima architettura Blackwell di Nvidia (SM100) e gli attuali chip Hopper. Secondo quanto riferito, le modifiche mostrano che MODEL1 ritorna a una dimensione standard 512 unificata e introduce funzionalità di “Value Vector Position Awareness”, insieme a potenziali implementazioni del sistema di memoria condizionale “Engram” recentemente pubblicato da DeepSeek. Il repository FlashMLA, che ospita il kernel di decodifica Multi-Head Latent Attention di DeepSeek ottimizzato per le GPU Nvidia Hopper, è stata la fonte degli indizi tecnici. Si prevede che il modello V4 di DeepSeek integrerà l'architettura Engram, che facilita il recupero efficiente da contesti che superano un milione di token utilizzando un sistema di ricerca per fatti fondamentali anziché ricalcolarli attraverso il calcolo. Secondo quanto riferito, test interni condotti dai dipendenti di DeepSeek suggeriscono che V4 potrebbe sovraperformare i modelli rivali di Anthropic e OpenAI sui benchmark di codifica, in particolare con istruzioni di codice lunghe. La rivelazione di MODEL1 avviene mentre DeepSeek si avvicina a un anno dal suo debutto R1 nel gennaio 2025. Il rilascio R1 ha comportato una riduzione di 593 miliardi di dollari del valore di mercato di Nvidia in un solo giorno, secondo ITPro. Secondo quanto riferito, il modello R1 di DeepSeek è costato meno di 6 milioni di dollari per l'addestramento e ha ottenuto prestazioni pari o superiori al modello o1 di OpenAI sui benchmark di matematica e codifica. La società ha successivamente rilasciato la V3.1 in agosto e la V3.2 a dicembre, con la V3.2 descritta come in grado di offrire prestazioni equivalenti a GPT-5 di OpenAI. DeepSeek non ha commentato ufficialmente il MODELLO1 o confermato i tempi di rilascio specifici per la V4.


Credito immagine in primo piano

Tags: modello1ricerca profonda

Related Posts

Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca

Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca

4 Giugno 2026
Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

4 Giugno 2026
Google lancia Ask Gemini in Drive agli utenti Workspace idonei

Google lancia Ask Gemini in Drive agli utenti Workspace idonei

4 Giugno 2026
Nintendo rilascerà in Europa uno Switch 2 facile da riparare

Nintendo rilascerà in Europa uno Switch 2 facile da riparare

4 Giugno 2026
Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

4 Giugno 2026
Sony rivela God of War: Laufey per PS5

Sony rivela God of War: Laufey per PS5

3 Giugno 2026

Recent Posts

  • Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca
  • Suno raccoglie 400 milioni di dollari per una valutazione di 5,4 miliardi di dollari nonostante le crescenti cause legali sul copyright
  • Lovable e Google espandono l’intelligenza artificiale pluriennale e la collaborazione sul cloud
  • I ricercatori creano un worm AI che adatta gli attacchi senza input umano
  • Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.