Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

DeepSeek introduce le iperconnessioni vincolate a collettori per R2

byKerem Gülen
6 Gennaio 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Poco prima dell’inizio del nuovo anno, alla comunità dell’intelligenza artificiale è stata presentata una potenziale svolta nell’addestramento dei modelli. Un team di ricercatori della società cinese di intelligenza artificiale DeepSeek ha rilasciato un carta delineando un nuovo approccio architettonico chiamato Manifold-Constrained Hyper-Connections, o mHC in breve. Questa nuova metodologia può fornire agli ingegneri un percorso per costruire e scalare modelli linguistici di grandi dimensioni senza i costi computazionali proibitivi e il capitale tipicamente richiesti.

DeepSeek ha catturato per la prima volta l'attenzione culturale un anno fa con il rilascio di R1. Quel modello rivaleggiava con le capacità di o1 di OpenAI, ma secondo quanto riferito è stato addestrato a una frazione del costo. Il rilascio è stato uno shock per gli sviluppatori con sede negli Stati Uniti perché ha messo in discussione il presupposto secondo cui solo ingenti riserve di capitale e hardware potrebbero produrre un’intelligenza artificiale all’avanguardia. Il documento mHC appena pubblicato, ospitato sul server di prestampa arXiv, potrebbe fungere da quadro tecnologico per il prossimo modello di DeepSeek, R2. Il modello R2 era originariamente previsto per la metà del 2025, ma è stato posticipato, secondo quanto riferito, a causa delle preoccupazioni del CEO Liang Wenfeng riguardo alle prestazioni e all’accesso limitato della Cina ai chip IA avanzati.

Il nuovo documento tenta di colmare un complesso divario tecnico che attualmente ostacola la scalabilità dell’intelligenza artificiale. I modelli linguistici di grandi dimensioni sono costruiti su reti neurali progettate per conservare i segnali su molti livelli. Tuttavia, man mano che il modello cresce e vengono aggiunti più strati, il segnale può attenuarsi o degradarsi, aumentando il rischio che si trasformi in rumore. I ricercatori lo paragonano al gioco del “telefono”: quante più persone sono coinvolte nella catena, tanto maggiore è la possibilità che il messaggio originale venga confuso o alterato. La sfida ingegneristica principale è ottimizzare il compromesso tra plasticità e stabilità, garantendo che i segnali vengano conservati sul maggior numero possibile di strati senza degradazione.

Gli autori dell'articolo, incluso il CEO Liang Wenfeng, hanno basato la loro ricerca sulle iperconnessioni (HC), un framework introdotto nel 2024 dai ricercatori di ByteDance. Gli HC standard diversificano i canali attraverso i quali gli strati della rete neurale condividono le informazioni, ma introducono il rischio di perdita di segnale e comportano costi di memoria elevati che li rendono difficili da implementare su larga scala. L'architettura mHC di DeepSeek mira a risolvere questo problema vincolando l'iperconnettività all'interno di un modello. Questo approccio preserva la complessità informativa consentita dagli HC evitando i problemi di memoria, consentendo l'addestramento di modelli altamente complessi in un modo pratico anche per gli sviluppatori con risorse limitate.

Il debutto del framework mHC suggerisce un perno nell’evoluzione dello sviluppo dell’IA. Fino a poco tempo fa, la saggezza prevalente nel settore sosteneva che solo le aziende più ricche potevano permettersi di costruire modelli di frontiera. DeepSeek continua a dimostrare che è possibile ottenere progressi attraverso un'ingegneria intelligente piuttosto che con la pura forza finanziaria. Pubblicando questa ricerca, DeepSeek ha reso disponibile il metodo mHC agli sviluppatori più piccoli, potenzialmente democratizzando l'accesso alle funzionalità avanzate di intelligenza artificiale se questa architettura si rivelasse efficace nel previsto modello R2.


Credito immagine in primo piano

Tags: AIricerca profonda

Related Posts

Amazon migliora Ring con sensori e avvisi antincendio al CES 2026

Amazon migliora Ring con sensori e avvisi antincendio al CES 2026

7 Gennaio 2026
L'informatore virale di Reddit è stato denunciato come una bufala sull'intelligenza artificiale

L'informatore virale di Reddit è stato denunciato come una bufala sull'intelligenza artificiale

7 Gennaio 2026
Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

7 Gennaio 2026
CES 2026: Intel sfida AMD con il chip portatile Panther Lake

CES 2026: Intel sfida AMD con il chip portatile Panther Lake

7 Gennaio 2026
Motorola presenta il pieghevole laterale Razr Fold al CES 2026

Motorola presenta il pieghevole laterale Razr Fold al CES 2026

7 Gennaio 2026
Lenovo presenta le edizioni ThinkPad X1 Aura al CES 2026

Lenovo presenta le edizioni ThinkPad X1 Aura al CES 2026

7 Gennaio 2026

Recent Posts

  • La Cina indaga sull'accordo Manus di Meta per problemi di controllo delle esportazioni
  • Amazon migliora Ring con sensori e avvisi antincendio al CES 2026
  • L'informatore virale di Reddit è stato denunciato come una bufala sull'intelligenza artificiale
  • Perché il 2026 è l'anno dedicato alla documentazione commerciale nel settore sanitario "Assumibile" Agenti dell'intelligenza artificiale
  • Lo studio Nature prevede 2 miliardi di dispositivi sanitari indossabili entro il 2050

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.