Con una mossa discreta, il team di ricerca di Apple ha fatto ha pubblicato un documento facendo luce sui progressi dell’azienda in MM1, una suite di modelli linguistici multimodali avanzati. Questi modelli sono progettati per una varietà di applicazioni, tra cui l’inferenza del linguaggio naturale, la didascalia delle immagini e la risposta visiva alle domande. Questa rivelazione indica che Apple, tradizionalmente reticente riguardo alle sue iniziative legate all’intelligenza artificiale mentre i suoi concorrenti salutavano l’intelligenza artificiale come il futuro della tecnologia, non solo sta recuperando terreno, ma è anche pronta a stabilire il ritmo nel settore.
Qual è la portata di Apple MM1?
“In questo lavoro, discutiamo della creazione di modelli multimodali di grandi dimensioni (MLLM) performanti. Dimostriamo che per il pre-addestramento multimodale su larga scala, l’utilizzo di un’attenta combinazione di didascalie di immagini, testo di immagini interlacciate e dati di solo testo è fondamentale per ottenere risultati all’avanguardia in pochi scatti su più benchmark, rispetto ad altri risultati pre-formazione pubblicati”, si legge nel documento.
Il documento approfondisce MM1, caratterizzandolo come un robusto insieme di modelli multimodali, in grado di supportare fino a 30 miliardi di parametri. Mette in evidenza le loro prestazioni eccezionali, messe a punto su uno spettro di benchmark multimodali, posizionando questi modelli in prima linea tra le tecnologie di intelligenza artificiale fondamentali. Secondo il team di Apple, i modelli multimodali di grandi linguaggi (MLLM) rappresentano un’evoluzione significativa rispetto ai tradizionali LLM, vantando capacità migliorate.
I ricercatori di Apple sono convinti di aver raggiunto un traguardo significativo nell’addestramento dei modelli per interpretare sia le immagini che il testo. Prevedono che le loro intuizioni aiuteranno in modo significativo la comunità nello sviluppo di modelli in grado di gestire set di dati sempre più grandi in modo più efficiente e affidabile. Tuttavia, nonostante le promettenti intuizioni condivise nel documento, l’applicazione pratica e i test di Apple MM1 rimangono all’orizzonte, con l’accesso al modello stesso ancora da aprire per una valutazione esterna.

Il futuro dell’avventura di Apple nei modelli linguistici di grandi dimensioni, in particolare MM1, è in bilico, con le speculazioni sullo sviluppo da parte dell’azienda di un framework LLM internamente soprannominato “Ajax”, parte di un ambizioso investimento da 1 miliardo di dollari nella ricerca e sviluppo dell’intelligenza artificiale. Ad aggiungere benzina a questo fuoco, sono circolate voci sull’acquisizione da parte di Apple della startup DarwinAI all’inizio di quest’anno, una mossa presumibilmente mirata a rafforzare questi sforzi.
Il CEO di Apple, Tim Cook, ha rotto il silenzio durato un anno dell’azienda sulle sue ambizioni relative all’intelligenza artificiale durante una chiamata post-utili a febbraio, affermando:
“Consideriamo l’intelligenza artificiale e l’apprendimento automatico come tecnologie fondamentali e sono parte integrante praticamente di ogni prodotto che spediamo. Siamo entusiasti di condividere i dettagli del nostro lavoro in corso in quello spazio entro la fine dell’anno”.
Inoltre, Apple ha recentemente presentato le capacità di intelligenza artificiale del suo nuovo MacBook Air M3, suggerendo il ruolo significativo che l’intelligenza artificiale svolgerà nelle sue offerte future. In un perno strategico, la società ha scelto di sciogliersi Progetto Titano il mese scorso, reindirizzando la sua attenzione verso aree emergenti come l’intelligenza artificiale, segnalando una ricalibrazione delle sue priorità di innovazione.
Credito immagine in primo piano: Kerem Gülen/Metà viaggio