Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Il futuro è nelle tue tasche: come trasferire l’intelligenza artificiale sugli smartphone

byStewart Rogers
18 Novembre 2024
in Artificial Intelligence, Conversations, Machine Learning
Home Artificial Intelligence
Share on FacebookShare on Twitter

Per anni, la promessa di un’intelligenza artificiale veramente intelligente e conversazionale è sembrata fuori portata. Siamo rimasti meravigliati dalle capacità di ChatGPT, Gemellie altri modelli linguistici di grandi dimensioni (LLM) – comporre poesie, scrivere codici, tradurre linguaggi – ma queste imprese si sono sempre affidate all’enorme potenza di elaborazione delle GPU cloud. Ora si sta preparando una rivoluzione silenziosa, che mira a portare queste incredibili capacità direttamente sul dispositivo che hai in tasca: un LLM sul tuo smartphone.

Questo cambiamento non riguarda solo la comodità; si tratta di privacy, efficienza e accesso a un nuovo mondo di esperienze IA personalizzate.

Tuttavia, ridurre questi enormi LLM per adattarli a un dispositivo con memoria e durata della batteria limitate presenta una serie di sfide uniche. Per comprendere questo panorama complesso, ho parlato con Alessio NaumovIngegnere capo della ricerca sull’intelligenza artificiale presso Terra quantisticafigura di spicco nel campo della compressione LLM.

In effetti, Naumov ha recentemente pubblicato un articolo su questo argomento che è stato annunciato come un’innovazione straordinaria e significativa nella compressione delle reti neurali: “TQCompressor: miglioramento dei metodi di decomposizione tensore nelle reti neurali tramite permutazioni‘ – alla IEEE International Conference on Multimedia Information Processing and Retrieval (IEEE MIPR 2024), una conferenza in cui ricercatori, scienziati e professionisti del settore si riuniscono per presentare e discutere gli ultimi progressi nella tecnologia multimediale.

“La sfida principale è, ovviamente, la memoria principale limitata (DRAM) disponibile sugli smartphone”, ha affermato Naumov. “La maggior parte dei modelli non può entrare nella memoria di uno smartphone, rendendone impossibile l’utilizzo.”

Indica il modello Llama 3.2-8B di Meta come ottimo esempio.

“Richiede circa 15 GB di memoria”, ha detto Naumov. “Tuttavia, l’iPhone 16 ha solo 8 GB di DRAM e Google Pixel 9 Pro ne offre 16 GB. Inoltre, per utilizzare questi modelli in modo efficiente, è necessaria ancora più memoria: circa 24 GB, offerta da dispositivi come la GPU NVIDIA RTX 4090, a partire da 1800 dollari.”

Questo vincolo di memoria non riguarda solo l’archiviazione; ha un impatto diretto sulla durata della batteria del telefono.

“Più memoria richiede un modello, più velocemente scarica la batteria”, ha detto Naumov. “Un LLM da 8 miliardi di parametri consuma circa 0,8 joule per token. Un iPhone completamente carico, con circa 50 kJ di energia, potrebbe sostenere questo modello solo per circa due ore a una velocità di 10 token al secondo, con ogni 64 token che consumano circa lo 0,2% della batteria”.

Quindi, come possiamo superare questi ostacoli? Naumov sottolinea l’importanza delle tecniche di compressione dei modelli.

“Per risolvere questo problema, dobbiamo ridurre le dimensioni dei modelli”, ha affermato Naumov. “Esistono due approcci principali: ridurre il numero di parametri o diminuire la memoria richiesta da ciascun parametro.”

Delinea strategie come la distillazione, la potatura e la decomposizione della matrice per ridurre il numero di parametri e la quantizzazione per ridurre l’impronta di memoria di ciascun parametro.

“Memorizzando i parametri del modello in INT8 anziché in FP16, possiamo ridurre il consumo di memoria di circa il 50%”, ha affermato Naumov.

Sebbene i dispositivi Pixel di Google, con i loro TPU ottimizzati per TensorFlow, sembrino una piattaforma ideale per l’esecuzione di LLM, Naumov avverte che non risolvono il problema fondamentale delle limitazioni di memoria.

“Sebbene le Tensor Processing Unit (TPU) utilizzate nei dispositivi Google Pixel offrano prestazioni migliorate durante l’esecuzione di modelli AI, il che può portare a velocità di elaborazione più elevate o a un minore consumo della batteria, non risolvono il problema fondamentale dei requisiti di memoria dei moderni LLM , che in genere superano le capacità di memoria degli smartphone”, ha affermato Naumov.

La spinta a portare gli LLM sugli smartphone va oltre la semplice ambizione tecnica. Si tratta di reinventare il nostro rapporto con l’intelligenza artificiale e affrontare i limiti delle soluzioni basate su cloud.

“I modelli leader come ChatGPT-4 hanno oltre un trilione di parametri”, ha affermato Naumov. “Se immaginiamo un futuro in cui le persone dipendono fortemente dagli LLM per attività come interfacce di conversazione o sistemi di raccomandazione, ciò potrebbe significare che circa il 5% del tempo quotidiano degli utenti viene speso interagendo con questi modelli. In questo scenario, l’esecuzione di GPT-4 richiederebbe l’implementazione di circa 100 milioni di GPU H100. La sola scala computazionale, senza tenere conto dei costi generali di comunicazione e trasmissione dei dati, equivarrebbe a gestire circa 160 aziende delle dimensioni di Meta. Questo livello di consumo energetico e le emissioni di carbonio associate porrebbero sfide ambientali significative”.

La visione è chiara: un futuro in cui l’intelligenza artificiale sarà perfettamente integrata nella nostra vita quotidiana, fornendo assistenza personalizzata senza compromettere la privacy o scaricare le batterie dei nostri telefoni.

“Prevedo che molte applicazioni LLM che attualmente si basano sul cloud computing passeranno all’elaborazione locale sui dispositivi degli utenti”, ha affermato Naumov. “Questo cambiamento sarà guidato da un ulteriore ridimensionamento dei modelli e da miglioramenti nelle risorse computazionali e nell’efficienza degli smartphone”.

Dipinge l’immagine di un futuro in cui le capacità dei LLM potrebbero diventare comuni e intuitive come lo è oggi la correzione automatica. Questa transizione potrebbe sbloccare molte interessanti possibilità. Grazie ai LLM locali, immagina una maggiore privacy in cui i tuoi dati sensibili non lasciano mai il tuo dispositivo.

Immagina un’intelligenza artificiale onnipresente con funzionalità LLM integrate praticamente in ogni app, dalla messaggistica all’e-mail fino agli strumenti di produttività. Pensa alla comodità della funzionalità offline, che ti consente di accedere all’assistenza AI anche senza una connessione Internet. Immagina esperienze personalizzate in cui i LLM apprendono le tue preferenze e abitudini per fornire un supporto veramente su misura.

Per gli sviluppatori desiderosi di esplorare questa frontiera, Naumov offre alcuni consigli pratici.

“Innanzitutto consiglio di selezionare il modello che meglio si adatta all’applicazione prevista”, ha affermato Naumov. “Hugging Face è una risorsa eccellente per questo. Cerca modelli recenti con 1-3 miliardi di parametri, poiché questi sono gli unici attualmente realizzabili per gli smartphone. Inoltre, prova a trovare versioni quantizzate di questi modelli su Hugging Face. La comunità dell’intelligenza artificiale in genere pubblica lì versioni quantizzate di modelli popolari”.

Suggerisce anche di esplorare strumenti come lama.cpp E bitsandbytes per la quantizzazione e l’inferenza del modello.

Il viaggio per portare i LLM sugli smartphone è ancora nelle fasi iniziali, ma il potenziale è innegabile. Mentre ricercatori come Aleksei Naumov continuano a spingere i confini di ciò che è possibile, siamo all’apice di una nuova era nell’intelligenza artificiale mobile, un’era in cui i nostri smartphone diventano compagni veramente intelligenti, in grado di comprendere e rispondere ai nostri bisogni nei modi che abbiamo conosciuto. ho appena iniziato a immaginare.

Tags: AILLMMobilesmartphone

Related Posts

Il 63% dei nuovi modelli di intelligenza artificiale sono ora basati sulla tecnologia cinese

Il 63% dei nuovi modelli di intelligenza artificiale sono ora basati sulla tecnologia cinese

12 Gennaio 2026
Google trasforma Gmail con AI Inbox e ricerca in linguaggio naturale

Google trasforma Gmail con AI Inbox e ricerca in linguaggio naturale

9 Gennaio 2026
Ford annuncia l'assistente AI e la prossima generazione BlueCruise al CES 2026

Ford annuncia l'assistente AI e la prossima generazione BlueCruise al CES 2026

8 Gennaio 2026
OpenAI lancia lo spazio dedicato ChatGPT Health

OpenAI lancia lo spazio dedicato ChatGPT Health

8 Gennaio 2026
Skylight presenta Calendar 2 con strumenti di organizzazione AI al CES 2026

Skylight presenta Calendar 2 con strumenti di organizzazione AI al CES 2026

8 Gennaio 2026
Google Classroom trasforma le lezioni in podcast con Gemini

Google Classroom trasforma le lezioni in podcast con Gemini

8 Gennaio 2026

Recent Posts

  • Il 63% dei nuovi modelli di intelligenza artificiale sono ora basati sulla tecnologia cinese
  • Instagram nega la violazione dei dati, accusa il problema del ripristino
  • I cofondatori di Google lasciano la California prima del voto sull’imposta sul patrimonio
  • XBrew Lab presenta la macchina da caffè nitro senza cartuccia al CES 2026
  • OpenAI acquisisce il team Convogo per potenziare gli sforzi nel cloud legati all'intelligenza artificiale

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.