DeepSeek ha rivelato i dettagli di un nuovo modello denominato “MODEL1” attraverso i recenti aggiornamenti al suo codice base FlashMLA GitHub. L'identificatore “MODEL1” appare 28 volte in 114 file all'interno del repository, segnando la divulgazione in occasione dell'anniversario di un anno dal rilascio R1 dell'azienda. Questo sviluppo fa seguito ai rapporti secondo cui DeepSeek prevede di rilasciare il suo modello V4 di prossima generazione intorno a metà febbraio 2026, in coincidenza con il capodanno lunare. L'analisi della base di codice aggiornata da parte degli sviluppatori indica che MODEL1 presenta un'architettura distinta da DeepSeek-V3.2, nome in codice “V32” nel repository. Le discrepanze logiche del codice suggeriscono cambiamenti nel layout della cache dei valori-chiave, nella gestione della scarsità e nella decodifica del formato dati FP8, indicando una ristrutturazione per l'ottimizzazione della memoria e l'efficienza computazionale. Ricercatori della comunità LocalLLaMA di Reddit notato l'aggiornamento del codice sorgente FlashMLA ha aggiunto un ampio supporto MODEL1, inclusa la compatibilità con la prossima architettura Blackwell di Nvidia (SM100) e gli attuali chip Hopper. Secondo quanto riferito, le modifiche mostrano che MODEL1 ritorna a una dimensione standard 512 unificata e introduce funzionalità di “Value Vector Position Awareness”, insieme a potenziali implementazioni del sistema di memoria condizionale “Engram” recentemente pubblicato da DeepSeek. Il repository FlashMLA, che ospita il kernel di decodifica Multi-Head Latent Attention di DeepSeek ottimizzato per le GPU Nvidia Hopper, è stata la fonte degli indizi tecnici. Si prevede che il modello V4 di DeepSeek integrerà l'architettura Engram, che facilita il recupero efficiente da contesti che superano un milione di token utilizzando un sistema di ricerca per fatti fondamentali anziché ricalcolarli attraverso il calcolo. Secondo quanto riferito, test interni condotti dai dipendenti di DeepSeek suggeriscono che V4 potrebbe sovraperformare i modelli rivali di Anthropic e OpenAI sui benchmark di codifica, in particolare con istruzioni di codice lunghe. La rivelazione di MODEL1 avviene mentre DeepSeek si avvicina a un anno dal suo debutto R1 nel gennaio 2025. Il rilascio R1 ha comportato una riduzione di 593 miliardi di dollari del valore di mercato di Nvidia in un solo giorno, secondo ITPro. Secondo quanto riferito, il modello R1 di DeepSeek è costato meno di 6 milioni di dollari per l'addestramento e ha ottenuto prestazioni pari o superiori al modello o1 di OpenAI sui benchmark di matematica e codifica. La società ha successivamente rilasciato la V3.1 in agosto e la V3.2 a dicembre, con la V3.2 descritta come in grado di offrire prestazioni equivalenti a GPT-5 di OpenAI. DeepSeek non ha commentato ufficialmente il MODELLO1 o confermato i tempi di rilascio specifici per la V4.





