Oracle ha annunciato il suo OCI Zettascale10, basato su cloud Supercomputer AI afferma di offrire 16 zettaFLOPS di prestazioni di picco. Il sistema, che utilizza 800.000 GPU Nvidia, è progettato per supportare carichi di lavoro AI su larga scala sviluppati da partner tra cui OpenAI. L’azienda afferma che il sistema può raggiungere una prestazione massima di 16 zettaFLOPS distribuiti sulle sue 800.000 GPU Nvidia. Questo livello di output, se calcolato per GPU, equivale a circa 20 petaflop per ciascuna unità. Questa metrica delle prestazioni individuali è paragonabile all’output del chip Grace-Blackwell GB300 Ultra, un componente utilizzato nei sistemi desktop di fascia alta progettati specificamente per attività di intelligenza artificiale. La cifra totale posiziona Zettascale10 come una voce significativa nell’infrastruttura computazionale su larga scala. Oracle ha identificato la piattaforma come l’infrastruttura fondamentale per il cluster Stargate di OpenAI, che si trova ad Abilene, in Texas. Questa struttura è in fase di costruzione per gestire alcuni dei carichi di lavoro IA più impegnativi che emergono attualmente sia da iniziative di ricerca che da applicazioni commerciali. Peter Hoeschele, vicepresidente di Infrastructure and Industrial Compute presso OpenAI, ha dichiarato: “Il design RoCE personalizzato altamente scalabile massimizza le prestazioni dell’intero tessuto su scala gigawatt mantenendo la maggior parte della potenza concentrata sull’elaborazione.” Al centro del sistema Zettascale10 c’è l’architettura di rete Oracle Acceleron RoCE, che è stata progettata per migliorare la scalabilità e l’affidabilità per le operazioni di intelligenza artificiale ad alto utilizzo di dati. Questo progetto utilizza schede di interfaccia di rete che funzionano come switch in miniatura, creando collegamenti diretti tra GPU su diversi piani di rete isolati. Questa configurazione ha lo scopo di ridurre la latenza nella comunicazione tra GPU. Fornisce inoltre ridondanza, consentendo ai lavori di calcolo di continuare l’elaborazione senza interruzioni anche se uno dei percorsi di rete subisce un errore. Il ruolo di Nvidia nel sistema è stato evidenziato da Ian Buck, vicepresidente di Hyperscale dell’azienda. “Dotato dell’infrastruttura AI full-stack di Nvidia, OCI Zettascale10 fornisce la struttura di elaborazione necessaria per far avanzare la ricerca sull’intelligenza artificiale all’avanguardia e aiutare le organizzazioni di tutto il mondo a passare dalla sperimentazione all’intelligenza artificiale industrializzata”, ha affermato Buck. Oracle sostiene inoltre che la sua struttura di rete può ridurre i costi semplificando i livelli all’interno della struttura della rete e offrendo prestazioni costanti su tutti i nodi. Il sistema introduce le tecnologie Linear-Pluggable e Receiver Optics, volte a ridurre sia il consumo energetico che i requisiti di raffreddamento senza sacrificare la larghezza di banda. La dichiarazione di prestazioni di 16 zettaFLOPS di Oracle non è stata verificata in modo indipendente. I parametri delle prestazioni per i sistemi cloud possono differire in base alla metodologia utilizzata per il calcolo e la cifra dell’azienda potrebbe basarsi sulle prestazioni di picco teoriche piuttosto che sui tassi operativi sostenuti. Poiché la produzione totale pubblicizzata del sistema equivale alla somma delle sue 800.000 GPU che funzionano al loro massimo potenziale, la sua efficienza nel mondo reale dipenderà in modo significativo da fattori come la progettazione della rete e l’ottimizzazione del software. Si prevede che gli analisti aspetteranno per vedere se la configurazione offre prestazioni paragonabili ai cluster AI consolidati di altri importanti fornitori di servizi cloud. Il sistema Zettascale10 è progettato per consentire ai clienti di addestrare e implementare modelli di intelligenza artificiale di grandi dimensioni nell’ambiente cloud distribuito di Oracle, che include misure di sovranità dei dati. Mahesh Thiagarajan, vicepresidente esecutivo di Oracle Cloud Infrastructure, ha commentato: “Con OCI Zettascale10, stiamo fondendo l’architettura di rete Oracle Acceleron RoCE di OCI con l’infrastruttura AI di Nvidia di prossima generazione per fornire capacità AI multi-gigawatt su scala senza pari.” Ha aggiunto che i clienti possono costruire e addestrare modelli utilizzando meno energia e operare con “dati forti e sovranità dell’intelligenza artificiale”. Il sistema offre inoltre flessibilità operativa attraverso una manutenzione indipendente a livello di piano, che consente aggiornamenti con tempi di inattività ridotti. Gli osservatori hanno notato che altri importanti fornitori di cloud stanno contemporaneamente costruendo i propri cluster GPU su larga scala e sviluppando sistemi di cloud storage avanzati, il che potrebbe ridurre qualsiasi vantaggio competitivo detenuto da Oracle. Il lancio del sistema Zettascale10 è previsto per il prossimo anno. La sua capacità di soddisfare la crescente domanda di calcoli IA scalabili, efficienti e affidabili sarà valutata dopo la sua implementazione.





