Meta ha annunciato il rilascio della versione definitiva di Llama 3.2, una raccolta senza precedenti di modelli di intelligenza artificiale gratuiti e open source, pensati per plasmare il futuro dell’intelligenza artificiale con flessibilità ed efficienza.
Poiché le aziende sono alla ricerca di soluzioni di intelligenza artificiale apocalittiche in grado di funzionare sull’hardware più comune o su quelli più diffusi per sviluppare soluzioni sia per le grandi aziende che per quelle indipendenti, Llama 3.2 offre nuovi modelli.
Llama 3.2 si concentra su dispositivi edge e mobili
L’enfasi sul limite e sulla mobilità è qualcosa di molto evidente in Meta.
Per quanto riguarda le novità di questa versione, gli sviluppatori hanno aggiunto LLM per la vista di piccole e medie dimensioni: 11B e 90B, e hanno introdotto anche alternative di testo puro, 1B e 3B.
In particolare, i nuovi modelli introdotti qui sono allineati per il funzionamento di dispositivi edge, rendendo così la tecnologia AI disponibile a più client. I modelli leggeri solo testo, in particolare quelli senza dati visivi, sono progettati per attività più semplici come la sintesi e il seguire le istruzioni a causa della bassa potenza di calcolo.
A causa dell’elaborazione centrale dei dati sui dispositivi mobili, con esecuzione locale, nessuno dei dati viene caricato sul cloud, come afferma Meta,
“L’esecuzione locale su dispositivi mobili garantisce che i dati rimangano sul dispositivo, migliorando la privacy dell’utente evitando l’elaborazione basata sul cloud”,
Questa capacità è particolarmente utile per le applicazioni che elaborano dati sensibili, poiché consente all’applicazione di eseguire attività importanti mantenendo la riservatezza dei dati. Ad esempio, gli utenti possono rispondere a messaggi personali mentre li riassumono, o ottenere elementi di to-do-list da riunioni senza inoltrare messaggi a server esterni.
Progressi nell’architettura dei modelli
Il cambiamento più significativo in Llama 3.2 è rappresentato da vari miglioramenti architettonici. I nuovi modelli utilizzano un’architettura basata su adattatori che può combinare codificatori di immagini con modelli di testo pre-addestrati senza modifiche. Questa integrazione porta a miglioramenti nella capacità di ragionare sia in aree di testo che di immagini e amplia notevolmente la gamma di applicazioni per questi modelli.
I modelli pre-addestrati risultanti sono stati sottoposti a rigorosi esercizi di messa a punto, che hanno comportato l’utilizzo di enormi quantità di dati di coppie immagine-testo rumorose.
Llama 3.2 11B e 90B includono il supporto per una gamma di attività di visione multimodale. Queste capacità abilitano scenari come la sottotitolazione delle immagini per l’accessibilità, fornendo approfondimenti in linguaggio naturale basati su visualizzazioni di dati e altro ancora. foto.twitter.com/8kwTopytaf
— AI presso Meta (@AIatMeta) 25 settembre 2024
C’è un’importante aggiunta alla lunghezza del contesto del token, che è aumentata a un livello davvero impressionante 128 mila per i modelli leggeri 1B e 3B. Facilita un più ampio spostamento di dati, il che è particolarmente prezioso per documenti lunghi e pensieri elaborati.
Questa capacità di adattarsi a dimensioni di input così grandi pone Llama 3.2 in una posizione di vantaggio rispetto ai concorrenti nel dinamico mercato dell’intelligenza artificiale dominato da Modelli GPT di OpenAI.
E per quanto riguarda i parametri delle prestazioni?
I modelli Llama 3.2 hanno dimostrato metriche di prestazioni eccezionali, consolidando ulteriormente il loro vantaggio competitivo sul mercato. Il modello 1B ha ottenuto un punteggio di 49,3 nel benchmark MMLU, mentre il modello 3B ha ottenuto 63,4. Sul lato della visione, i modelli 11B e 90B hanno mostrato le loro capacità con punteggi rispettivamente di 50,7 e 60,3 in attività di ragionamento visivo.
Valutando le prestazioni su ampie valutazioni e benchmark umani, i risultati suggeriscono che i modelli di visione Llama 3.2 sono competitivi con i principali modelli chiusi nel riconoscimento delle immagini e in una serie di attività di comprensione visiva. foto.twitter.com/QtOzExBcrd
— AI presso Meta (@AIatMeta) 25 settembre 2024
Questi parametri indicano che i modelli Llama 3.2 non solo soddisfano, ma spesso superano le prestazioni di offerte simili di altre aziende, come Claude 3 Haiku E GPT4o-mini.
L’integrazione della tecnologia UnslothAI aumenta inoltre l’efficienza di questi modelli, consentendo velocità di messa a punto e inferenza doppie, riducendo al contempo l’utilizzo della VRAM del 70%. Questo miglioramento è fondamentale per gli sviluppatori che desiderano implementare soluzioni di intelligenza artificiale in tempo reale senza dover affrontare limitazioni hardware.
Collaborazione e supporto dell’ecosistema
Uno dei fattori chiave che definiscono la prontezza di Llama 3.2 per essere immesso sul mercato è il suo ecosistema ben sviluppato. Le partnership con altri leader del settore mobile come Qualcomm, MediaTek e AWS consentono agli sviluppatori di implementare questi modelli in diverse impostazioni, ambienti cloud e dispositivi locali.
IL Pila di lama distribuzioni come Llama Stack per installazioni su dispositivo e Llama Stack per installazioni su singolo nodo offrono soluzioni che gli sviluppatori possono sfruttare e integrare nei loro progetti senza ulteriori complicazioni.
I modelli leggeri Llama 3.2 in spedizione oggi includono il supporto per @Braccio, @MediaTek e @Qualcomm per consentire alla comunità degli sviluppatori di iniziare a creare applicazioni mobili efficaci fin dal primo giorno. foto.twitter.com/DhhNcUviW7
— AI presso Meta (@AIatMeta) 25 settembre 2024
Come utilizzare Meta Llama 3.2?
L’ultima versione del modello di intelligenza artificiale open source, Llama 3.2, è ora disponibile su Sito web Meta Llamaoffrendo funzionalità avanzate di personalizzazione, messa a punto e distribuzione su diverse piattaforme.
Gli sviluppatori possono scegliere tra quattro dimensioni del modello: 1B, 3B, 11B e 90B, oppure continuare a utilizzare la precedente Lama 3.1.
Meta non si limita a rilasciare questi modelli in natura; è ansiosa di garantire che gli sviluppatori abbiano tutto ciò di cui hanno bisogno per sfruttare efficacemente Llama 3.2. Questo impegno include la condivisione di strumenti e risorse preziosi per aiutare gli sviluppatori a creare in modo responsabile. Aggiornando costantemente le proprie best practice e interagendo con la comunità open source, Meta spera di ispirare l’innovazione promuovendo al contempo intelligenza artificiale etica utilizzo.
“Siamo entusiasti di continuare le conversazioni che stiamo avendo con i nostri partner e la comunità open source e, come sempre, non vediamo l’ora di vedere cosa costruirà la comunità utilizzando Llama 3.2 e Llama Stack”,
ha affermato Meta.
Questo approccio collaborativo non solo migliora le capacità di Llama 3.2, ma incoraggia anche un ecosistema vivace. Che si tratti di soluzioni edge leggere o di attività multimodali più complesse, Meta spera che i nuovi modelli forniscano la flessibilità necessaria per soddisfare le diverse esigenze degli utenti.
Crediti delle immagini: Meta