Poco prima dell’inizio del nuovo anno, alla comunità dell’intelligenza artificiale è stata presentata una potenziale svolta nell’addestramento dei modelli. Un team di ricercatori della società cinese di intelligenza artificiale DeepSeek ha rilasciato un carta delineando un nuovo approccio architettonico chiamato Manifold-Constrained Hyper-Connections, o mHC in breve. Questa nuova metodologia può fornire agli ingegneri un percorso per costruire e scalare modelli linguistici di grandi dimensioni senza i costi computazionali proibitivi e il capitale tipicamente richiesti.
DeepSeek ha catturato per la prima volta l'attenzione culturale un anno fa con il rilascio di R1. Quel modello rivaleggiava con le capacità di o1 di OpenAI, ma secondo quanto riferito è stato addestrato a una frazione del costo. Il rilascio è stato uno shock per gli sviluppatori con sede negli Stati Uniti perché ha messo in discussione il presupposto secondo cui solo ingenti riserve di capitale e hardware potrebbero produrre un’intelligenza artificiale all’avanguardia. Il documento mHC appena pubblicato, ospitato sul server di prestampa arXiv, potrebbe fungere da quadro tecnologico per il prossimo modello di DeepSeek, R2. Il modello R2 era originariamente previsto per la metà del 2025, ma è stato posticipato, secondo quanto riferito, a causa delle preoccupazioni del CEO Liang Wenfeng riguardo alle prestazioni e all’accesso limitato della Cina ai chip IA avanzati.
Il nuovo documento tenta di colmare un complesso divario tecnico che attualmente ostacola la scalabilità dell’intelligenza artificiale. I modelli linguistici di grandi dimensioni sono costruiti su reti neurali progettate per conservare i segnali su molti livelli. Tuttavia, man mano che il modello cresce e vengono aggiunti più strati, il segnale può attenuarsi o degradarsi, aumentando il rischio che si trasformi in rumore. I ricercatori lo paragonano al gioco del “telefono”: quante più persone sono coinvolte nella catena, tanto maggiore è la possibilità che il messaggio originale venga confuso o alterato. La sfida ingegneristica principale è ottimizzare il compromesso tra plasticità e stabilità, garantendo che i segnali vengano conservati sul maggior numero possibile di strati senza degradazione.
Gli autori dell'articolo, incluso il CEO Liang Wenfeng, hanno basato la loro ricerca sulle iperconnessioni (HC), un framework introdotto nel 2024 dai ricercatori di ByteDance. Gli HC standard diversificano i canali attraverso i quali gli strati della rete neurale condividono le informazioni, ma introducono il rischio di perdita di segnale e comportano costi di memoria elevati che li rendono difficili da implementare su larga scala. L'architettura mHC di DeepSeek mira a risolvere questo problema vincolando l'iperconnettività all'interno di un modello. Questo approccio preserva la complessità informativa consentita dagli HC evitando i problemi di memoria, consentendo l'addestramento di modelli altamente complessi in un modo pratico anche per gli sviluppatori con risorse limitate.
Il debutto del framework mHC suggerisce un perno nell’evoluzione dello sviluppo dell’IA. Fino a poco tempo fa, la saggezza prevalente nel settore sosteneva che solo le aziende più ricche potevano permettersi di costruire modelli di frontiera. DeepSeek continua a dimostrare che è possibile ottenere progressi attraverso un'ingegneria intelligente piuttosto che con la pura forza finanziaria. Pubblicando questa ricerca, DeepSeek ha reso disponibile il metodo mHC agli sviluppatori più piccoli, potenzialmente democratizzando l'accesso alle funzionalità avanzate di intelligenza artificiale se questa architettura si rivelasse efficace nel previsto modello R2.





