Quando un cane abbaia a un giocattolo cigolante o un meccanico smette improvvisamente di parlare a metà frase, non hai bisogno di un dottorato di ricerca in scienze cognitive per capire cosa sta succedendo: guardi, ascolti e capisci. Ma per i modelli AI multimodale, questo semplice riflesso umano rimane sorprendentemente difficile da replicare. Nonostante tutti i recenti clamore attorno ai modelli “frontier” come GPT-4o e Gemini 1.5 Pro, la maggior parte di loro si armeggia ancora quando è costretto a sintetizzare veramente ciò che vedono E ascoltare. Questo è esattamente il problema che Maverix sta cercando di risolvere.
Dove i benchmark non sono corti – e Maverix interviene
I principali benchmark multimodali di oggi potrebbero affermare di testare il ragionamento del mondo reale, ma molti di loro imbrogliano. Ricompensano modelli che possono cavarsela solo con una visione o solo trascrizioni di testo, invece di costringerli a integrare più sensi come fanno gli umani. Maverix (L’abbreviazione dell’indice di ragionamento audiovisivo multimodale) è un nuovo punto di riferimento che alla fine aumenta la barra richiedendo ragionamento audiovisivo strettamente accoppiato in 700 video e oltre 2.500 domande.
Pensalo come un corso di incidente di buon senso per l’IA: se senti un ronzio e vedi un’ape vicino alla fotocamera, probabilmente dovresti escludere il “dispositivo meccanico fuori dallo schermo”. Ma Maverix non solo modella alcuni puzzle facili. Viene fornito con domande a scelta multipla a otto opzioni (per uccidere le congetture) e istruzioni aperte (per testare la vera comprensione), spingendo i modelli oltre il riconoscimento dei pattern nel coordinamento cognitivo completo.
Domande del mondo reale, vera complessità umana
Le domande di Maverix sono progettate come test psicologici di Rorschach per macchine: ragionamento causale, inferenza emotiva, consapevolezza spaziale e contesto dinamico. Immagina un video di due persone che litigano. Stanno combattendo per il vero, recitando in un film o imitando semplicemente la WWE Wrestling per le risate? Quella risposta potrebbe dipendere allo schiaffo E La risata. Devi vedere E Ascolta di capire.
Per far funzionare tutto questo, il team Maverix ha costruito una meticolosa pipeline che fonde le competenze umane con la convalida dell’IA. Ogni video viene fornito con sottotitoli, suoni classificati (discorso, musica, rumore naturale) e rami chiave annotati. Ogni domanda è controllata per garantire che scorciatoie unimedali, come solo leggere i sottotitoli, non lo tagliano. Se un modello potrebbe rispondere senza usare entrambe le modalità, la domanda viene riscritta o lanciata.
Quindi, quanto bene gli AIS di oggi si esibiscono davvero?
Non eccezionale. Anche con l’accesso diretto all’audio e ai video, il miglior performer – GEMINI 1.5 Pro – ha nato circa il 71,9% di precisione. È vicino agli umani, ma ancora dietro. Gli umani, con input audiovisivi completi, orologio in oltre l’80%. Ma ecco il kicker: alcuni modelli open source si rompono a malapena il 30%. E quando si spogliano audio o video, le prestazioni scendono come un microfono.
In compiti aperti in cui i modelli devono generare le proprie spiegazioni, le cose diventano più disordinate. Il modello medio ha ottenuto solo 1,9 su 5 in coerenza e ragionamento giudicati GPT-4. Gli umani hanno segnato 2,79. Questo divario si allarga ancora di più quando i compiti comportano segnali emotivi complessi o eventi fuori dallo schermo, come indovinare perché una folla sposta i tavoli in una partita di poker o se due ballerini stanno combattendo o semplicemente prove.
Non tutti i modelli lottano allo stesso modo
Uno dei contributi più rivelatrici di Maverix è come espone in realtà i diversi modelli fare affidamento. Gemini si comporta meglio quando viene assegnato l’audio grezzo, mentre la maggior parte degli altri modelli fa meglio con i sottotitoli. Questo dice molto su ciò che sta accadendo sotto il cofano: alcuni modelli “ascoltano”, altri “leggi”. Ma nessuno dei due corrisponde alla percezione a livello umano su tutta la linea.
È interessante notare che compiti come lo shopping – dove contano i dati strutturali, sono in cui le macchine brillano. Ma per i commenti sportivi, la strategia di gioco o l’interpretazione delle emozioni umane? Gli umani li schiacciano. Queste lacune mostrano che l’attuale intelligenza artificiale è molto migliore nella scansione dei cataloghi che analizzando la sfumatura sociale o il contesto che si evolve nel tempo.
I livelli di difficoltà contano, così come la modalità
Le attività facili hanno dato il più grande impulso dagli input multimodali, il che consente di utilizzare alcuni modelli audio e video per perfezionare le risposte ovvie. Ma quando le domande sono diventate più difficili, molti modelli si sono appoggiati pesantemente alla visione e hanno ignorato l’audio. Claude 3.5 Sonnet, ad esempio, è migliorato il 41,5% su video facili con input multimodale, ma solo il 17% su quelli difficili.
Ciò evidenzia un problema più profondo: la maggior parte dei modelli non sta davvero fondendo le modalità. Li stanno impilando. Puoi dare loro sia audio che video, ma a meno che il modello esigenze Entrambi per risolvere il compito, sceglierà un preferito. Maverix mira a cambiarlo progettando domande che richiedono una vera fusione, dove la risposta dipende dall’interazione tra suono e vista.
Per colmare il divario delle prestazioni, avremo bisogno di architetture migliori che trattano l’audio come più di un ripensamento. Avremo bisogno di nuove strategie di formazione che premiano la comprensione sincronizzata piuttosto che le previsioni isolate. E soprattutto, avremo bisogno di parametri di riferimento come Maverix che non si accontenti di ciò che è facile da misurare, ma porre le domande difficili su come le macchine veramente capire.
Quindi la prossima volta che il tuo assistente di intelligenza artificiale incasina un semplice comando o leggi male a un tono, ricorda: potrebbe non essere sordo, non ha ancora superato il test Maverix.