Elon Musk ha nuovamente fatto notizia offrendo al mondo uno sguardo a Cortex, il supercomputer di addestramento all’intelligenza artificiale di X attualmente in costruzione presso L’impianto Giga Texas di Tesla. In un video che è sia impressionante che surreale, Musk ha mostrato come sono in realtà delle fantastiche GPU AI da 1 miliardo di dollari. Ma come se non bastasse a far cadere le mascelle degli appassionati di tecnologia, Musk è recentemente salito sulla sua piattaforma, X, per rivelare che il vero spettacolo, Colossus, un cluster di addestramento H100 da 100.000, è ufficialmente online.
Cosa sono esattamente i cluster di intelligenza artificiale?
Un cluster di IA come un cervello gigante composto da migliaia di computer che lavorano insieme per elaborare enormi quantità di informazioni alla velocità della luce. Invece di un singolo computer, cluster come Colossus utilizzano migliaia di macchine specializzate, ciascuna dotata di chip potenti (chiamati GPU), progettati per gestire i calcoli incredibilmente complessi necessari per l’intelligenza artificiale.
Questi cluster addestrano i modelli di intelligenza artificiale fornendo loro enormi quantità di dati: è come insegnare a uno studente a leggere migliaia di libri in poco tempo.
Tutti i dettagli riguardanti il Colossus di xAI
Musk non si è risparmiato nel vantarsi, affermando che Colossus è “il sistema di addestramento AI più potente al mondo”. Ancora più impressionante è il fatto che questo progetto colossale sia stato costruito “dall’inizio alla fine” in soli 122 giorni.
Considerando la scala e la complessità coinvolte, non è un’impresa da poco. I server per il cluster xAI sono stati forniti da Dell e Supermicro e, sebbene Musk non abbia fornito una cifra esatta, le stime indicano un costo compreso tra una cifra sbalorditiva di 3 e 4 miliardi di dollari.
Questo fine settimana, il @xAI il team ha portato online il nostro cluster di formazione Colossus 100k H100. Dall’inizio alla fine, è stato fatto in 122 giorni.
Colossus è il sistema di addestramento AI più potente al mondo. Inoltre, raddoppierà le sue dimensioni a 200k (50k H200) in pochi mesi.
Eccellente…
— Elon Musk (@elonmusk) 2 settembre 2024
Ora è qui che le cose si fanno davvero interessanti. Sebbene il sistema sia operativo, non è chiaro esattamente quanti di questi cluster siano oggi pienamente operativi. Non è insolito con sistemi di questa portata, poiché richiedono un debug e un’ottimizzazione estesi prima di funzionare a pieno regime. Ma quando si ha a che fare con qualcosa delle dimensioni di Colossus, ogni dettaglio conta e persino una frazione del suo pieno potenziale potrebbe superare la maggior parte degli altri sistemi.
Il futuro si presenta ancora più intenso. Colossus è destinato a raddoppiare le sue dimensioni e prevede di aggiungere altre 100.000 GPU, suddivise tra le attuali unità H100 di Nvidia e gli attesissimi chip H200. Questo aggiornamento alimenterà principalmente l’addestramento del modello di intelligenza artificiale più recente e avanzato di xAI, Grok-3, che mira a superare i confini di ciò che consideriamo possibile nell’intelligenza artificiale.
Credito immagine in evidenza: BoliviaIntelligente/Unsplash