Il cambiamento urbano di solito si intrufola su di noi. Un nuovo caffè qui. Un cavalcavia dipinto lì. E se potessi vedere un intero decennio della trasformazione visiva di una città, catturata automaticamente, ordinata e spiegata dall’IA?
Questo è esattamente quello che ha chiamato un nuovo progetto di ricerca Cronache visive preferendosi. Sviluppato da Ricercatori Da Stanford e Google DeepMind, questo sistema ha utilizzato modelli di grandi dimensioni multimodali (MLLMS) per analizzare oltre 40 milioni di immagini di Google Street View di New York City e San Francisco. Ha individuato le tendenze che gli umani non si accorgerebbero facilmente.
Il problema impossibile della scala
Il monitoraggio di piccoli cambiamenti nel tempo non è una novità nella visione artificiale. Ma la maggior parte dei lavori precedenti richiedeva etichette o si concentrava su cose specifiche come auto o volti. Questo progetto era diverso. L’obiettivo era aperto: cosa è cambiato più spesso in queste città, oltre un decennio?
Domanda semplice. Brutalmente duro in pratica.
I modelli di linguaggio di grandi dimensioni sono bravi a ragionare sulle immagini, ma lottano quando il set di dati cresce oltre alcune migliaia di immagini. Visual Chronicles aveva a che fare con milioni. Quindi i ricercatori hanno progettato una strategia dal basso verso l’alto. Innanzitutto, rileva piccoli cambiamenti locali come un nuovo segno o un albero rimosso. Quindi, raggrupparli in più ampie tendenze a livello di città.
Lavori investigativi di AI per le strade
Ecco come ha funzionato in azione:
- Passaggio 1: Confronta le immagini della stessa posizione nel tempo.
- Passaggio 2: Chiedi all’IA di descrivere cosa è cambiato, con prove delle immagini.
- Passaggio 3: Gruppo cambiamenti simili trovati in tutta la città.
- Passaggio 4: Verificare tali tendenze con ulteriori controlli di intelligenza artificiale.
Questo approccio ibrido consente al sistema di rilevare sottili cambiamenti. Setup da pranzo all’aperto dopo Covid-19. Nuovi pannelli solari sui tetti. Tutti individuati senza annegare i dati o generare risposte astratte come “crescita economica”.
Allora cosa ha trovato?
A New York City, l’IA ha notato un drammatico aumento di:
- Telecamere di sicurezza: 745 nuove installazioni in tutti i quartieri.
- Fence intorno ai parcheggi: 509 nuove aggiunte.
- Upgrade del marciapiede: 519 nuovi pad di avvertimento ADA rossi.
A San Francisco, le tendenze della firma del decennio sembravano diverse:
- Pannelli solari: 1504 nuove installazioni sul tetto, particolarmente visibili dalle autostrade rialzate.
- Corsie di autobus dedicate: 751 Conversioni di nuove corsie per il trasporto pubblico.
- Rack bici: 1799 nuovi rack, per lo più vicino al centro.
Gli anni corti hanno lasciato le impronte visive ovunque
I ricercatori si sono anche concentrati sul periodo pandemico, catturando il modo in cui le strade della città si sono adattate dopo il 2020. I pranzo all’aperto sono esplosi a San Francisco, con 1482 nuove configurazioni registrate tra il 2020 e il 2022.
E poi c’era il cavalcavia blu. Una sezione autostradale a San Francisco è stata dipinta “Coronado Blue”, un dettaglio notato 481 volte nelle immagini di Street View dopo il 2020.
A New York, il sistema è stato anche utilizzato per tenere traccia delle modifiche al negozio al dettaglio. Ha rivelato due tendenze opposte:
- Aperture di panetterie e negozi di succo in aree gentrificanti.
- Chiusura di negozi di alimentari e filiali bancarie nelle vecchie zone di vendita al dettaglio.
Perché perché no. I ricercatori hanno condotto un esperimento finale, chiedendo all’IA di guardare immagini casuali e trovare “cose insolite”.
Il vincitore? Sculture astratte giganti sparse attraverso New York City. Oltre 200 casi di installazioni di arte pubblica, tutte raggruppate dal modello.
I modelli AI si fidano dei loro regolatori?
Perché questo è molto al di là di Street View
Visual Chronicles mostra come i futuri strumenti di intelligenza artificiale potrebbero consentire alle aziende, ai governi o ai ricercatori di tenere traccia dei cambiamenti in qualsiasi grande set di dati visivi. Immagini satellitari. Pavimenti di fabbrica. Qualsiasi luogo che cambia nel tempo.
È anche un avvertimento. L’intelligenza artificiale non solo “vedere” le immagini. Li spiega in modi che modellano ciò che crediamo stia accadendo. Più ci fidiamo di questi rapporti di tendenza automatizzati, più abbiamo bisogno di sistemi che bilanciano la velocità dell’IA con cautela umana.
Visual Chronicles è un primo esempio di quel tipo di sistema. È abbastanza preciso trovare modelli reali, abbastanza scalabili da gestire milioni di immagini e abbastanza radicato da lasciare la narrazione supportata dalle prove.