Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
  • Notizia
  • Industria
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

DeepSeek introduce le iperconnessioni vincolate a collettori per R2

byKerem Gülen
6 Gennaio 2026
in Notizia, Ricerca
Home Notizia
Share on FacebookShare on Twitter
Google Preferred Source

Poco prima dell’inizio del nuovo anno, alla comunità dell’intelligenza artificiale è stata presentata una potenziale svolta nell’addestramento dei modelli. Un team di ricercatori della società cinese di intelligenza artificiale DeepSeek ha rilasciato un carta delineando un nuovo approccio architettonico chiamato Manifold-Constrained Hyper-Connections, o mHC in breve. Questa nuova metodologia può fornire agli ingegneri un percorso per costruire e scalare modelli linguistici di grandi dimensioni senza i costi computazionali proibitivi e il capitale tipicamente richiesti.

DeepSeek ha catturato per la prima volta l'attenzione culturale un anno fa con il rilascio di R1. Quel modello rivaleggiava con le capacità di o1 di OpenAI, ma secondo quanto riferito è stato addestrato a una frazione del costo. Il rilascio è stato uno shock per gli sviluppatori con sede negli Stati Uniti perché ha messo in discussione il presupposto secondo cui solo ingenti riserve di capitale e hardware potrebbero produrre un’intelligenza artificiale all’avanguardia. Il documento mHC appena pubblicato, ospitato sul server di prestampa arXiv, potrebbe fungere da quadro tecnologico per il prossimo modello di DeepSeek, R2. Il modello R2 era originariamente previsto per la metà del 2025, ma è stato posticipato, secondo quanto riferito, a causa delle preoccupazioni del CEO Liang Wenfeng riguardo alle prestazioni e all’accesso limitato della Cina ai chip IA avanzati.

Il nuovo documento tenta di colmare un complesso divario tecnico che attualmente ostacola la scalabilità dell’intelligenza artificiale. I modelli linguistici di grandi dimensioni sono costruiti su reti neurali progettate per conservare i segnali su molti livelli. Tuttavia, man mano che il modello cresce e vengono aggiunti più strati, il segnale può attenuarsi o degradarsi, aumentando il rischio che si trasformi in rumore. I ricercatori lo paragonano al gioco del “telefono”: quante più persone sono coinvolte nella catena, tanto maggiore è la possibilità che il messaggio originale venga confuso o alterato. La sfida ingegneristica principale è ottimizzare il compromesso tra plasticità e stabilità, garantendo che i segnali vengano conservati sul maggior numero possibile di strati senza degradazione.

Gli autori dell'articolo, incluso il CEO Liang Wenfeng, hanno basato la loro ricerca sulle iperconnessioni (HC), un framework introdotto nel 2024 dai ricercatori di ByteDance. Gli HC standard diversificano i canali attraverso i quali gli strati della rete neurale condividono le informazioni, ma introducono il rischio di perdita di segnale e comportano costi di memoria elevati che li rendono difficili da implementare su larga scala. L'architettura mHC di DeepSeek mira a risolvere questo problema vincolando l'iperconnettività all'interno di un modello. Questo approccio preserva la complessità informativa consentita dagli HC evitando i problemi di memoria, consentendo l'addestramento di modelli altamente complessi in un modo pratico anche per gli sviluppatori con risorse limitate.

Il debutto del framework mHC suggerisce un perno nell’evoluzione dello sviluppo dell’IA. Fino a poco tempo fa, la saggezza prevalente nel settore sosteneva che solo le aziende più ricche potevano permettersi di costruire modelli di frontiera. DeepSeek continua a dimostrare che è possibile ottenere progressi attraverso un'ingegneria intelligente piuttosto che con la pura forza finanziaria. Pubblicando questa ricerca, DeepSeek ha reso disponibile il metodo mHC agli sviluppatori più piccoli, potenzialmente democratizzando l'accesso alle funzionalità avanzate di intelligenza artificiale se questa architettura si rivelasse efficace nel previsto modello R2.


Credito immagine in primo piano

Tags: AIricerca profonda

Related Posts

Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca

Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca

4 Giugno 2026
I ricercatori creano un worm AI che adatta gli attacchi senza input umano

I ricercatori creano un worm AI che adatta gli attacchi senza input umano

4 Giugno 2026
Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

4 Giugno 2026
Google lancia Ask Gemini in Drive agli utenti Workspace idonei

Google lancia Ask Gemini in Drive agli utenti Workspace idonei

4 Giugno 2026
Nintendo rilascerà in Europa uno Switch 2 facile da riparare

Nintendo rilascerà in Europa uno Switch 2 facile da riparare

4 Giugno 2026
Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

Meta lancia gli agenti aziendali AI su WhatsApp, Instagram e Messenger

4 Giugno 2026

Recent Posts

  • Amazon aggiunge anteprime dei prodotti generate dall’intelligenza artificiale ai risultati di ricerca
  • Suno raccoglie 400 milioni di dollari per una valutazione di 5,4 miliardi di dollari nonostante le crescenti cause legali sul copyright
  • Lovable e Google espandono l’intelligenza artificiale pluriennale e la collaborazione sul cloud
  • I ricercatori creano un worm AI che adatta gli attacchi senza input umano
  • Google Wallet aggiungerà ID digitali da selezionati paesi dell’UE quest’estate

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Notizia
  • Industria
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.