Microsoft sta intensificando il suo gioco nel mondo dell’intelligenza artificiale con la nuova serie Phi-3.5, offrendo tre modelli all’avanguardia progettati per attività diverse. Questi modelli non sono solo potenti, ma anche versatili, rendendo più facile per gli sviluppatori affrontare tutto, dalla codifica di base alla risoluzione di problemi complessi e persino attività visive. Sia che tu stia lavorando con risorse limitate o che tu abbia bisogno di intelligenza artificiale funzionalità, i modelli Phi-3.5 hanno qualcosa da offrire, ed eccone una rapida panoramica.
Analisi dei modelli Phi-3.5 di Microsoft
L’ultima release di Microsoft, la serie Phi 3.5, introduce tre modelli AI avanzati: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct e Phi-3.5-vision-instruct. Ogni modello è realizzato per soddisfare esigenze specifiche, dal ragionamento di base alle attività multimodali avanzate.
Tutti e tre i modelli Microsoft Phi-3.5 sono disponibili con licenza MIT, che consente agli sviluppatori di utilizzare, modificare e distribuire i modelli con restrizioni minime. Questo approccio open source supporta un’adozione diffusa e promuove l’innovazione in varie applicazioni e domini di ricerca.
Phi-3.5 Mini Instruct: efficiente e compatto
IL Istruzioni per Microsoft Phi-3.5 Mini Il modello è progettato per funzionare eccezionalmente bene in ambienti con risorse computazionali limitate. Con 3,8 miliardi di parametri, è pensato per attività che richiedono forti capacità di ragionamento ma non richiedono una potenza computazionale estesa. Addestrato su 3,4 trilioni di token utilizzando 512 GPU H100-80G in 10 giorni.
Caratteristiche principali:
- Parametri: 3,8 miliardi
- Lunghezza del contesto: 128k gettoni
- Casi d’uso principali: Generazione di codice, risoluzione di problemi matematici, ragionamento basato sulla logica
- Prestazione: Nonostante le sue dimensioni ridotte, dimostra prestazioni competitive in attività conversazionali multi-turno e multilingue. Eccelle in benchmark come RepoQA, che misura la comprensione del codice a contesto lungo, superando altri modelli di dimensioni simili come Llama-3.1-8B-instruct.
Il design efficiente di Phi-3.5 Mini Instruct gli consente di offrire prestazioni robuste pur tenendo conto dei vincoli di risorse. Ciò lo rende adatto per l’implementazione in scenari in cui le risorse di calcolo sono limitate ma sono comunque richieste prestazioni elevate.
Phi-3.5 MoE: architettura mista di esperti
IL Microsoft Phi-3.5 MoE (combinazione di esperti) Il modello rappresenta un approccio sofisticato all’architettura AI combinando più modelli specializzati in uno. Presenta un design unico in cui diversi “esperti” vengono attivati a seconda dell’attività, ottimizzando le prestazioni in vari domini. Addestrato su 4,9 trilioni di token con 512 GPU H100-80G in 23 giorni.
Caratteristiche principali:
- Parametri: 42 miliardi (attivi), di cui 6,6 miliardi utilizzati attivamente durante il funzionamento
- Lunghezza del contesto: 128k gettoni
- Casi d’uso principali: Compiti di ragionamento complessi, comprensione del codice, comprensione del linguaggio multilingue
- Prestazione: Il modello MoE funziona eccezionalmente bene in compiti di codice e matematica e mostra una forte comprensione multilingue. Spesso supera modelli più grandi in benchmark specifici, incluso un notevole vantaggio su GPT-4o mini nel test MMLU (Massive Multitask Language Understanding) a 5 colpi.
L’architettura Phi-3.5 MoE migliora la scalabilità e l’efficienza attivando solo un sottoinsieme di parametri rilevanti per un dato compito. Ciò consente al modello di gestire un’ampia gamma di applicazioni mantenendo elevate prestazioni in diverse lingue e materie.
Phi-3.5 Vision Instruct: capacità multimodali avanzate
IL Istruzioni per Microsoft Phi-3.5 Vision Il modello è progettato per gestire sia dati di testo che di immagini, il che lo rende uno strumento potente per attività di intelligenza artificiale multimodale. Integra l’elaborazione avanzata delle immagini con la comprensione testuale, supportando una varietà di attività complesse di analisi visiva e testuale. Addestrato su 500 miliardi di token utilizzando 256 GPU A100-80G in 6 giorni.
Caratteristiche principali:
- Parametri: 4,15 miliardi
- Lunghezza del contesto: 128k gettoni
- Casi d’uso principali: Comprensione delle immagini, riconoscimento ottico dei caratteri (OCR), comprensione di grafici e tabelle, sintesi video
- Prestazione: Addestrato su una combinazione di set di dati sintetici e filtrati disponibili al pubblico, il modello Vision Instruct eccelle nella gestione di attività visive complesse e multi-frame e fornisce un’analisi completa delle informazioni visive e testuali.
La capacità di Phi-3.5 Vision Instruct di elaborare e integrare sia testo che immagini lo rende altamente versatile per applicazioni che richiedono un’analisi visiva dettagliata. Questa capacità è particolarmente preziosa per attività che coinvolgono diversi tipi e formati di dati.
Il modello Phi-3.5 Vision Instruct è accessibile anche tramite Studio di intelligenza artificiale di Azure.