Per anni, la promessa di un’intelligenza artificiale veramente intelligente e conversazionale è sembrata fuori portata. Siamo rimasti meravigliati dalle capacità di ChatGPT, Gemellie altri modelli linguistici di grandi dimensioni (LLM) – comporre poesie, scrivere codici, tradurre linguaggi – ma queste imprese si sono sempre affidate all’enorme potenza di elaborazione delle GPU cloud. Ora si sta preparando una rivoluzione silenziosa, che mira a portare queste incredibili capacità direttamente sul dispositivo che hai in tasca: un LLM sul tuo smartphone.
Questo cambiamento non riguarda solo la comodità; si tratta di privacy, efficienza e accesso a un nuovo mondo di esperienze IA personalizzate.
Tuttavia, ridurre questi enormi LLM per adattarli a un dispositivo con memoria e durata della batteria limitate presenta una serie di sfide uniche. Per comprendere questo panorama complesso, ho parlato con Alessio NaumovIngegnere capo della ricerca sull’intelligenza artificiale presso Terra quantisticafigura di spicco nel campo della compressione LLM.
In effetti, Naumov ha recentemente pubblicato un articolo su questo argomento che è stato annunciato come un’innovazione straordinaria e significativa nella compressione delle reti neurali: “TQCompressor: miglioramento dei metodi di decomposizione tensore nelle reti neurali tramite permutazioni‘ – alla IEEE International Conference on Multimedia Information Processing and Retrieval (IEEE MIPR 2024), una conferenza in cui ricercatori, scienziati e professionisti del settore si riuniscono per presentare e discutere gli ultimi progressi nella tecnologia multimediale.
“La sfida principale è, ovviamente, la memoria principale limitata (DRAM) disponibile sugli smartphone”, ha affermato Naumov. “La maggior parte dei modelli non può entrare nella memoria di uno smartphone, rendendone impossibile l’utilizzo.”
Indica il modello Llama 3.2-8B di Meta come ottimo esempio.
“Richiede circa 15 GB di memoria”, ha detto Naumov. “Tuttavia, l’iPhone 16 ha solo 8 GB di DRAM e Google Pixel 9 Pro ne offre 16 GB. Inoltre, per utilizzare questi modelli in modo efficiente, è necessaria ancora più memoria: circa 24 GB, offerta da dispositivi come la GPU NVIDIA RTX 4090, a partire da 1800 dollari.”
Questo vincolo di memoria non riguarda solo l’archiviazione; ha un impatto diretto sulla durata della batteria del telefono.
“Più memoria richiede un modello, più velocemente scarica la batteria”, ha detto Naumov. “Un LLM da 8 miliardi di parametri consuma circa 0,8 joule per token. Un iPhone completamente carico, con circa 50 kJ di energia, potrebbe sostenere questo modello solo per circa due ore a una velocità di 10 token al secondo, con ogni 64 token che consumano circa lo 0,2% della batteria”.
Quindi, come possiamo superare questi ostacoli? Naumov sottolinea l’importanza delle tecniche di compressione dei modelli.
“Per risolvere questo problema, dobbiamo ridurre le dimensioni dei modelli”, ha affermato Naumov. “Esistono due approcci principali: ridurre il numero di parametri o diminuire la memoria richiesta da ciascun parametro.”
Delinea strategie come la distillazione, la potatura e la decomposizione della matrice per ridurre il numero di parametri e la quantizzazione per ridurre l’impronta di memoria di ciascun parametro.
“Memorizzando i parametri del modello in INT8 anziché in FP16, possiamo ridurre il consumo di memoria di circa il 50%”, ha affermato Naumov.
Sebbene i dispositivi Pixel di Google, con i loro TPU ottimizzati per TensorFlow, sembrino una piattaforma ideale per l’esecuzione di LLM, Naumov avverte che non risolvono il problema fondamentale delle limitazioni di memoria.
“Sebbene le Tensor Processing Unit (TPU) utilizzate nei dispositivi Google Pixel offrano prestazioni migliorate durante l’esecuzione di modelli AI, il che può portare a velocità di elaborazione più elevate o a un minore consumo della batteria, non risolvono il problema fondamentale dei requisiti di memoria dei moderni LLM , che in genere superano le capacità di memoria degli smartphone”, ha affermato Naumov.
La spinta a portare gli LLM sugli smartphone va oltre la semplice ambizione tecnica. Si tratta di reinventare il nostro rapporto con l’intelligenza artificiale e affrontare i limiti delle soluzioni basate su cloud.
“I modelli leader come ChatGPT-4 hanno oltre un trilione di parametri”, ha affermato Naumov. “Se immaginiamo un futuro in cui le persone dipendono fortemente dagli LLM per attività come interfacce di conversazione o sistemi di raccomandazione, ciò potrebbe significare che circa il 5% del tempo quotidiano degli utenti viene speso interagendo con questi modelli. In questo scenario, l’esecuzione di GPT-4 richiederebbe l’implementazione di circa 100 milioni di GPU H100. La sola scala computazionale, senza tenere conto dei costi generali di comunicazione e trasmissione dei dati, equivarrebbe a gestire circa 160 aziende delle dimensioni di Meta. Questo livello di consumo energetico e le emissioni di carbonio associate porrebbero sfide ambientali significative”.
La visione è chiara: un futuro in cui l’intelligenza artificiale sarà perfettamente integrata nella nostra vita quotidiana, fornendo assistenza personalizzata senza compromettere la privacy o scaricare le batterie dei nostri telefoni.
“Prevedo che molte applicazioni LLM che attualmente si basano sul cloud computing passeranno all’elaborazione locale sui dispositivi degli utenti”, ha affermato Naumov. “Questo cambiamento sarà guidato da un ulteriore ridimensionamento dei modelli e da miglioramenti nelle risorse computazionali e nell’efficienza degli smartphone”.
Dipinge l’immagine di un futuro in cui le capacità dei LLM potrebbero diventare comuni e intuitive come lo è oggi la correzione automatica. Questa transizione potrebbe sbloccare molte interessanti possibilità. Grazie ai LLM locali, immagina una maggiore privacy in cui i tuoi dati sensibili non lasciano mai il tuo dispositivo.
Immagina un’intelligenza artificiale onnipresente con funzionalità LLM integrate praticamente in ogni app, dalla messaggistica all’e-mail fino agli strumenti di produttività. Pensa alla comodità della funzionalità offline, che ti consente di accedere all’assistenza AI anche senza una connessione Internet. Immagina esperienze personalizzate in cui i LLM apprendono le tue preferenze e abitudini per fornire un supporto veramente su misura.
Per gli sviluppatori desiderosi di esplorare questa frontiera, Naumov offre alcuni consigli pratici.
“Innanzitutto consiglio di selezionare il modello che meglio si adatta all’applicazione prevista”, ha affermato Naumov. “Hugging Face è una risorsa eccellente per questo. Cerca modelli recenti con 1-3 miliardi di parametri, poiché questi sono gli unici attualmente realizzabili per gli smartphone. Inoltre, prova a trovare versioni quantizzate di questi modelli su Hugging Face. La comunità dell’intelligenza artificiale in genere pubblica lì versioni quantizzate di modelli popolari”.
Suggerisce anche di esplorare strumenti come lama.cpp E bitsandbytes per la quantizzazione e l’inferenza del modello.
Il viaggio per portare i LLM sugli smartphone è ancora nelle fasi iniziali, ma il potenziale è innegabile. Mentre ricercatori come Aleksei Naumov continuano a spingere i confini di ciò che è possibile, siamo all’apice di una nuova era nell’intelligenza artificiale mobile, un’era in cui i nostri smartphone diventano compagni veramente intelligenti, in grado di comprendere e rispondere ai nostri bisogni nei modi che abbiamo conosciuto. ho appena iniziato a immaginare.