Apple afferma che M5 esegue modelli AI quasi il 30% più velocemente di M4

Apple lo è posizionamento il nuovo MacBook Pro con tecnologia M5 come una macchina molto più capace per eseguire e sperimentare modelli linguistici di grandi dimensioni, grazie agli aggiornamenti sia del framework MLX che degli acceleratori neurali GPU integrati nel chip. Per i ricercatori e gli sviluppatori che preferiscono sempre più lavorare direttamente sull’hardware in silicio di Apple, l’azienda propone la linea M5 come un significativo passo avanti nelle prestazioni di inferenza sul dispositivo, in particolare per LLM e altri carichi di lavoro dominati da operazioni a matrice. Al centro di questo sforzo c’è MLX, il framework di array open source di Apple progettato specificamente per la sua architettura di memoria unificata. MLX fornisce un’interfaccia simile a NumPy per il calcolo numerico, supporta sia l’addestramento che l’inferenza per le reti neurali e consente agli sviluppatori di spostarsi senza problemi tra l’esecuzione di CPU e GPU senza spostare i dati tra diversi pool di memoria. Funziona su tutti i sistemi Apple in silicio, ma l’ultima versione beta di macOS sblocca un nuovo livello di accelerazione sfruttando le unità di moltiplicazione della matrice dedicate all’interno della GPU dell’M5. Questi acceleratori neurali sono esposti tramite TensorOps in Metal 4 e forniscono a MLX l’accesso alle prestazioni che secondo Apple sono cruciali per i carichi di lavoro dominati da grandi moltiplicazioni di tensori. Oltre a MLX si trova MLX LM, un pacchetto per la generazione e la messa a punto di testo che supporta la maggior parte dei modelli linguistici ospitati su Hugging Face. Gli utenti possono installarlo tramite pip, avviare sessioni di chat dal terminale e quantizzare i modelli direttamente sul dispositivo. La quantizzazione è una caratteristica fondamentale: la conversione di un modello Mistral con parametri 7B in un modello a 4 bit richiede solo pochi secondi, riducendo drasticamente i requisiti di memoria e preservando l’usabilità sulle macchine consumer.

Immagine: mela

Per mostrare i vantaggi dell’M5, Apple ha confrontato diversi modelli, tra cui Qwen 1.7B e 8B (BF16), Qwen 8B e 14B quantizzati a 4 bit e due architetture miste di esperti: Qwen 30B (3B attivo) e GPT-OSS 20B (MXFP4). I risultati si concentrano sul tempo necessario al primo token (TTFT) e sulla velocità di generazione quando si producono 128 token aggiuntivi da un prompt di 4.096 token. Gli acceleratori neurali dell’M5 migliorano notevolmente il TTFT, riducendo l’attesa a meno di 10 secondi per un modello 14B denso e a meno di 3 secondi per un MoE da 30B. Apple riporta accelerazioni del TTFT tra 3,3x e 4x rispetto alla precedente generazione M4. La successiva generazione di token, che è limitata dalla larghezza di banda della memoria piuttosto che dal calcolo, vede guadagni più piccoli ma costanti di circa il 19-27%, in linea con l’aumento del 28% della larghezza di banda dell’M5 (153 GB/s contro 120 GB/s su M4). I test evidenziano anche quanta capacità del modello si adatta comodamente alla memoria unificata. Un MacBook Pro da 24 GB può ospitare un modello 8B in BF16 o un MoE da 30 B a 4 bit con headroom in più, mantenendo l’utilizzo totale sotto i 18 GB in entrambi i casi. Apple afferma che gli stessi vantaggi dell’acceleratore si estendono oltre i modelli linguistici. Ad esempio, la generazione di un’immagine 1024×1024 con FLUX-dev-4bit (parametri 12B) viene eseguita più di 3,8 volte più velocemente su un M5 che su un M4. Mentre MLX continua ad aggiungere funzionalità e ad ampliare il supporto dei modelli, l’azienda scommette che sempre più membri della comunità di ricerca ML tratteranno il silicio Apple non solo come un ambiente di sviluppo ma come una valida piattaforma di inferenza e sperimentazione.

Credito immagine in primo piano