Le GPU Blackwell di Nvidia devono affrontare sfide di surriscaldamento che hanno un impatto sui principali clienti tecnologici. I processori di prossima generazione faticano a funzionare in modo efficace nei rack di server che ospitano 72 GPU, sollevando preoccupazioni per aziende come Google, Meta e Microsoft riguardo alla tempestiva implementazione. I rapporti indicano che Nvidia sta rivalutando più volte i suoi progetti di rack a causa di questi problemi di surriscaldamento, che rischiano di danneggiare i componenti e limitare le prestazioni della GPU. L’assorbimento di potenza previsto per queste configurazioni è fino a 120 kW per rack.
Informati gli addetti ai lavori L’informazione che le GPU Blackwell di Nvidia per l’intelligenza artificiale e il calcolo ad alte prestazioni (HPC) si sono surriscaldate nei server ad alta capacità, influenzando le tempistiche di lancio per i clienti che fanno affidamento su queste tecnologie. Nel tentativo di affrontare le complicazioni derivanti da questi problemi di surriscaldamento, Nvidia ha chiesto ai suoi fornitori di modificare ripetutamente il design dei rack. Un portavoce di Nvidia ha sottolineato il loro approccio collaborativo con i servizi cloud, descrivendo le modifiche al design come una parte di routine del processo di sviluppo.
Adeguamenti al design per contrastare i problemi di surriscaldamento
In precedenza, i ritardi nella rampa di produzione di Blackwell venivano attribuiti a un difetto di progettazione che “uccideva la resa”. IL GPU Blackwell B100 e B200 utilizzano la tecnologia di packaging CoWoS-L di TSMC, che integra due chiplet per velocità di trasferimento dati migliorate fino a 10 TB/s. Tuttavia, una discrepanza nelle caratteristiche di espansione termica tra i chiplet della GPU e altri componenti ha portato a deformazioni e guasti del sistema. Per risolvere questo problema, Nvidia ha apportato modifiche agli strati metallici e alle strutture di rilievo del silicio della GPU.
Il risultato di questi miglioramenti è entrato nella produzione di massa solo alla fine di ottobre, con le date di spedizione previste posticipate alla fine di gennaio. Questo ritardo è fondamentale per i clienti di Nvidia come Google, MetaE Microsoftche dipendono da queste GPU per migliorare i loro modelli di intelligenza artificiale più potenti. Nvidia aveva precedentemente pubblicizzato i chip Blackwell come 30 volte più veloci per attività come rispondere alle domande dei chatbot rispetto ai modelli precedenti.
Si prevede che i ricavi dei chip Blackwell di Nvidia raggiungeranno i 6 miliardi di dollari nel prossimo trimestre, evidenziando l’elevata domanda nonostante i continui vincoli di fornitura. Nvidia, che ha recentemente superato Apple, è ora l’azienda con il maggior valore al mondo, con una capitalizzazione di mercato che sale a 3.482 trilioni di dollari. Tuttavia, i continui intoppi riguardanti i processori Blackwell minacciano di interrompere i progressi pianificati nelle capacità di intelligenza artificiale essenziali per i principali attori tecnologici.
Credito immagine in primo piano: Nvidia