Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
  • News
  • Industry
Subscribe
No Result
View All Result
Dataconomy IT
No Result
View All Result

Un nuovo documento di Apple rivela come l’intelligenza artificiale può tenere traccia delle tue faccende quotidiane

byKerem Gülen
23 Novembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

Ricercatori Apple ha pubblicato uno studio descrivendo in dettaglio come i modelli linguistici di grandi dimensioni (LLM) possono interpretare i dati audio e di movimento per identificare le attività dell’utente, concentrandosi sulla fusione tardiva dei sensori multimodali per il riconoscimento delle attività. L’articolo, intitolato “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, di Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren e Jaya Narain, è stato accettato al workshop Learning from Time Series for Health al NeurIPS 2025. Questa ricerca esplora l’integrazione dell’analisi LLM con i dati dei sensori tradizionali per migliorare la classificazione delle attività. I ricercatori affermano: “I flussi di dati dei sensori forniscono informazioni preziose sulle attività e sul contesto per le applicazioni a valle, anche se l’integrazione di informazioni complementari può essere impegnativa. Mostriamo che i modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per la fusione tardiva per la classificazione delle attività da dati di serie temporali audio e di movimento.” Hanno curato un sottoinsieme di dati per il riconoscimento di diverse attività dal set di dati Ego4D, che comprende attività domestiche e sport. I LLM valutati hanno ottenuto punteggi F1 di classificazione zero e one-shot in 12 classi significativamente al di sopra delle probabilità, senza formazione specifica per l’attività. La classificazione zero-shot tramite la fusione basata su LLM da modelli specifici della modalità consente applicazioni temporali multimodali con dati di training allineati limitati per uno spazio di incorporamento condiviso. La fusione basata su LLM consente la distribuzione del modello senza richiedere memoria e calcoli aggiuntivi per modelli multimodali specifici dell’applicazione mirati. Lo studio evidenzia la capacità degli LLM di dedurre le attività degli utenti da segnali audio e di movimento di base, mostrando una maggiore precisione con un singolo esempio. Fondamentalmente, il LLM non è stato alimentato direttamente con audio grezzo. Invece, ha ricevuto brevi descrizioni testuali generate da modelli audio e un modello di movimento basato sull’IMU, che traccia il movimento tramite i dati dell’accelerometro e del giroscopio. Per lo studio, i ricercatori hanno utilizzato Ego4D, un set di dati contenente migliaia di ore di contenuti multimediali prospettici in prima persona. Hanno curato un set di dati di attività quotidiane da Ego4D cercando descrizioni narrative. Il set di dati curato comprende campioni di 20 secondi provenienti da dodici attività di alto livello: queste attività sono state scelte per coprire compiti domestici e di fitness e in base alla loro prevalenza nel set di dati Ego4D più ampio. I dati audio e di movimento sono stati elaborati attraverso modelli più piccoli per generare didascalie di testo e previsioni di classe. Questi risultati sono stati poi inseriti in diversi LLM, in particolare Gemini-2.5-pro e Qwen-32B, per valutare l’accuratezza dell’identificazione delle attività. Apple ha confrontato le prestazioni dei modelli in due scenari: un test a numero chiuso in cui i modelli sceglievano tra 12 attività predefinite e un test a tempo aperto senza opzioni fornite. Per ciascun test sono state utilizzate varie combinazioni di didascalie audio, etichette audio, dati di previsione dell’attività IMU e contesto aggiuntivo. I ricercatori hanno notato che i risultati offrono spunti sulla combinazione di più modelli per i dati sull’attività e sulla salute. Questo approccio è particolarmente vantaggioso quando i dati grezzi dei sensori da soli non sono sufficienti per fornire un quadro chiaro dell’attività dell’utente. Apple ha anche pubblicato materiali supplementari, inclusi ID dei segmenti Ego4D, timestamp, suggerimenti ed esempi one-shot, per facilitare la riproducibilità per altri ricercatori.


Credito immagine in primo piano

Tags: AIego4dMela

Related Posts

JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente

JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente

21 Gennaio 2026
Miggo Security aggira le difese di Google Gemini tramite gli inviti del calendario

Miggo Security aggira le difese di Google Gemini tramite gli inviti del calendario

21 Gennaio 2026
Analista di Forrester: L’intelligenza artificiale non è riuscita a spostare l’ago della produttività globale

Analista di Forrester: L’intelligenza artificiale non è riuscita a spostare l’ago della produttività globale

20 Gennaio 2026
Come l'intelligenza artificiale ha creato il malware VoidLink in soli sette giorni

Come l'intelligenza artificiale ha creato il malware VoidLink in soli sette giorni

20 Gennaio 2026
OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

OpenAI GPT 5.2 risolve il problema di matematica di Erdő in 15 minuti

19 Gennaio 2026
Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

Appfigure: la spesa per le app mobili ha raggiunto il record di 155,8 miliardi di dollari

15 Gennaio 2026

Recent Posts

  • JWST identifica SN Eos: la supernova più distante mai confermata spettroscopicamente
  • Netflix lancia la votazione interattiva in tempo reale per la première live di Star Search
  • Snap paga milioni per risolvere la causa sulla dipendenza da adolescenti
  • Il CEO di Anthropic critica gli Stati Uniti e Nvidia per le vendite di chip AI in Cina
  • Netflix prevede di riprogettare l'app mobile nel 2026 per favorire il coinvolgimento quotidiano degli utenti

Recent Comments

Nessun commento da mostrare.
Dataconomy IT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • News
  • Industry
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.