Penseresti che prevedere tassi di mortalità per la demenza o mappatura del rumore della città richiederebbe squadre di esperti, sondaggi di terra e società di imaging satellitare. Ma un nuovo modello di intelligenza artificiale, sviluppato da Ricercatori all’Università di Beijing Jiaotong e all’Università di Montreal: Claim può farlo in una volta, solo guardando mappe, tweet e immagini. Il sistema è chiamato OmnigeoE se la ricerca è all’altezza della sua promessa, potrebbe ridefinire il modo in cui leggiamo città, catastrofi e ambienti umani in tempo reale.
Perché la decodifica dei dati geospaziali è così difficile
Geoai – Short per l’intelligenza artificiale geospaziale – è sempre stato un gioco difficile. Pensaci in questo modo: è come cercare di capire una città leggendo cinque lingue contemporaneamente. Hai immagini satellitari, foto a livello di strada, statistiche di salute pubblica, tweet pieni di gergale e hashtag e dati sulla posizione di migliaia di luoghi appuntiti. Ognuno di questi tipi di dati parla un dialetto diverso e la maggior parte dei sistemi di intelligenza artificiale oggi fa fluente solo uno o due.
I modelli esistenti potrebbero essere bravi a classificare le immagini di telerilevamento o taggare posizioni nel testo, ma quando getti tutte queste attività in una pentola, le cose cadono a pezzi. È qui che interviene Omnigeo: è un singolo sistema di intelligenza artificiale addestrato a gestirli tutti.
Il team dietro Omnigeo ha progettato a Modello di lingua grande multimodale (MLLM)—Un tipo di intelligenza artificiale che può interpretare immagini satellitari, metadati geospaziali e linguaggio naturale in una volta. Si basa su modelli open source come Llava e Qwen2, ma è messo a punto per cinque domini principali: geografia della salute, geografia urbana, telerilevamento, percezione urbana e semantica geospaziale.
Invece di costruire un modello per ogni attività, Omnigeo li gestisce tutti contemporaneamente. Il segreto? Apprendimento basato sull’istruzione accoppiato a ciò che i ricercatori chiamano “perfezionamento multimodale”. In termini semplici, impara da coppie di capiture di immagine, dati delle serie temporali, vettori spaziali e altro ancora, tutto allineato nelle stesse posizioni.
Parliamo di applicazioni del mondo reale
Ecco dove le cose diventano interessanti. Omnigeo è stato addestrato a:
- Previsioni tassi di mortalità correlati alla demenza a livello di contea utilizzando dati storici e immagini satellitari.
- Rileva la funzione primaria dei quartieri urbani, come se un’area sia dominata da scuole o uffici commerciali, basati sui dati a livello di strada e sui conteggi di POI (punto di interesse).
- Valuta come è “rumorosa” o “vivace” una strada, basata esclusivamente su immagini e didascalie associate.
- Analizza le descrizioni della posizione nei tweet durante le catastrofi naturali, come l’estrazione di “21719 Grand Hollow Lane, Katy, TX” da una richiesta di salvataggio delle inondazioni.
L’ultimo caso d’uso da solo è sufficiente per suggerire il potenziale di questo modello nella risposta alle emergenze e nella gestione della città intelligente.
Come Omnigeo vede il mondo
Tecnicamente parlando, Omnigeo funziona convertendo i dati geografici in narrazioni leggibili. Ad esempio, le immagini satellitari vengono trasformate in didascalie in linguaggio naturale (“aree verdi con zone industriali sparse”), quindi allineate con dati strutturati come tassi di mortalità o distribuzioni POI. Tutto ciò è avvolto in un set di dati di istruzioni, permettendo al modello di imparare nel contesto, come farebbe un essere umano.
Non è solo teorico. Omnigeo ha sovraperformato GPT-4O e altri modelli leader in compiti geospaziali chiave, tra cui Classificazione della scena, Riconoscimento della posizioneE Previsione della funzione urbana. In alcuni casi, ha ridotto i tassi di errore di oltre la metà. Anche in aree soggettive come la percezione urbana – come sembra “bella” o “deprimente” una strada – si è rivelato straordinariamente accurato.
Perché adesso?
Le città stanno diventando più difficili da gestire e più facili da sorvegliare. Con eventi climatici, boom della popolazione e crisi di salute pubblica che colpiscono tutti in una volta, i politici hanno bisogno di strumenti più veloci per interpretare il caos geospaziale. Omnigeo sta arrivando in un momento in cui l’IA è finalmente in grado di assorbire dati ad alta dimensione tra i formati.
La differenza? La maggior parte dei modelli di grandi dimensioni oggi parla. Omnigeo vede, ascolta e comprende lo spazio.
Omnigeo è un progetto per come potrebbe apparire l’IA geospaziale futura: un sistema addestrato attraverso le modalità, allineato con input del mondo reale e pronto a generalizzare.
Se Chatgpt è il tuo assistente di lingua, Omnigeo potrebbe essere il prossimo cervello di emergenza della tua città—La traduzione del caos visivo e di una posizione ingombro in intuizioni in tempo reale e fruibile.
E fa tutto senza mai uscire.
Credito immagine in primo piano: Kerem Gülen/Midjourney