Ricercatori Apple ha pubblicato uno studio descrivendo in dettaglio come i modelli linguistici di grandi dimensioni (LLM) possono interpretare i dati audio e di movimento per identificare le attività dell’utente, concentrandosi sulla fusione tardiva dei sensori multimodali per il riconoscimento delle attività. L’articolo, intitolato “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, di Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren e Jaya Narain, è stato accettato al workshop Learning from Time Series for Health al NeurIPS 2025. Questa ricerca esplora l’integrazione dell’analisi LLM con i dati dei sensori tradizionali per migliorare la classificazione delle attività. I ricercatori affermano: “I flussi di dati dei sensori forniscono informazioni preziose sulle attività e sul contesto per le applicazioni a valle, anche se l’integrazione di informazioni complementari può essere impegnativa. Mostriamo che i modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per la fusione tardiva per la classificazione delle attività da dati di serie temporali audio e di movimento.” Hanno curato un sottoinsieme di dati per il riconoscimento di diverse attività dal set di dati Ego4D, che comprende attività domestiche e sport. I LLM valutati hanno ottenuto punteggi F1 di classificazione zero e one-shot in 12 classi significativamente al di sopra delle probabilità, senza formazione specifica per l’attività. La classificazione zero-shot tramite la fusione basata su LLM da modelli specifici della modalità consente applicazioni temporali multimodali con dati di training allineati limitati per uno spazio di incorporamento condiviso. La fusione basata su LLM consente la distribuzione del modello senza richiedere memoria e calcoli aggiuntivi per modelli multimodali specifici dell’applicazione mirati. Lo studio evidenzia la capacità degli LLM di dedurre le attività degli utenti da segnali audio e di movimento di base, mostrando una maggiore precisione con un singolo esempio. Fondamentalmente, il LLM non è stato alimentato direttamente con audio grezzo. Invece, ha ricevuto brevi descrizioni testuali generate da modelli audio e un modello di movimento basato sull’IMU, che traccia il movimento tramite i dati dell’accelerometro e del giroscopio. Per lo studio, i ricercatori hanno utilizzato Ego4D, un set di dati contenente migliaia di ore di contenuti multimediali prospettici in prima persona. Hanno curato un set di dati di attività quotidiane da Ego4D cercando descrizioni narrative. Il set di dati curato comprende campioni di 20 secondi provenienti da dodici attività di alto livello: queste attività sono state scelte per coprire compiti domestici e di fitness e in base alla loro prevalenza nel set di dati Ego4D più ampio. I dati audio e di movimento sono stati elaborati attraverso modelli più piccoli per generare didascalie di testo e previsioni di classe. Questi risultati sono stati poi inseriti in diversi LLM, in particolare Gemini-2.5-pro e Qwen-32B, per valutare l’accuratezza dell’identificazione delle attività. Apple ha confrontato le prestazioni dei modelli in due scenari: un test a numero chiuso in cui i modelli sceglievano tra 12 attività predefinite e un test a tempo aperto senza opzioni fornite. Per ciascun test sono state utilizzate varie combinazioni di didascalie audio, etichette audio, dati di previsione dell’attività IMU e contesto aggiuntivo. I ricercatori hanno notato che i risultati offrono spunti sulla combinazione di più modelli per i dati sull’attività e sulla salute. Questo approccio è particolarmente vantaggioso quando i dati grezzi dei sensori da soli non sono sufficienti per fornire un quadro chiaro dell’attività dell’utente. Apple ha anche pubblicato materiali supplementari, inclusi ID dei segmenti Ego4D, timestamp, suggerimenti ed esempi one-shot, per facilitare la riproducibilità per altri ricercatori.





