Nell’apprendimento automatico, poche idee sono riuscite a unificare la complessità nel modo in cui la tavola periodica una volta faceva per la chimica. Ora, Ricercatori di MIT, Microsoft e Google stanno tentando di fare proprio questo con I-Con o apprendimento contrastante di informazioni. L’idea è ingannevolmente semplice: rappresenta la maggior parte degli algoritmi di apprendimento automatico – classificazione, regressione, clustering e persino modelli linguistici di grandi dimensioni – come casi speciali di un principio generale: apprendere le relazioni tra i punti dati.
Proprio come gli elementi chimici rientrano in gruppi prevedibili, i ricercatori affermano che anche gli algoritmi di apprendimento automatico formano un modello. Mappando questi schemi, I-Con non chiarisce solo vecchi metodi. Prevede di nuovi. Una di queste previsioni? Un algoritmo di classificazione delle immagini all’avanguardia che richiede zero etichette umane.
Immagina una cena da ballo. Ogni ospite (punto dati) trova un posto (cluster) idealmente vicino agli amici (dati simili). Alcuni amici si siedono insieme, altri si sono diffusi sui tavoli. Questa metafora, chiamata Clustering Gala, cattura il modo in cui I-Con tratta il clustering: ottimizzare il modo in cui i punti di dati si basano su relazioni intrinseche. Non si tratta solo di chi è vicino a chi, ma quali tipi di legami contano; Che si tratti di somiglianza visiva, etichette di classe condivisa o connessioni grafiche.
Questa analogia della sala da ballo si estende a tutto l’apprendimento automatico. Il framework I-Con mostra che gli algoritmi differiscono principalmente nel modo in cui definiscono tali relazioni. Cambia l’elenco degli ospiti o la logica dei posti a sedere e ottieni una riduzione della dimensionalità, l’apprendimento auto-supervisionato o il clustering spettrale. Tutto si riduce a preservare alcune relazioni semplificando altre.
L’architettura dietro i-con
Alla base, I-Con è costruito su una fondazione teorica dell’informazione. L’obiettivo: minimizzare la differenza (divergenza KL) tra una distribuzione target, ciò che l’algoritmo pensa che le relazioni dovrebbero essere e una distribuzione appresa, il modello effettivo. Formalmente, questo è scritto come:
L (θ, ϕ) = ∑ dKl(pθ (· | i) || qϕ (· | i))
Sono costruite diverse tecniche di apprendimento da come vengono costruite le due distribuzioni, Pθ e Qϕ. Quando Pθ raggruppa le immagini per vicinanza visiva e Qϕ le raggruppa per somiglianza dell’etichetta, il risultato è la classificazione supervisionata. Quando Pθ si basa sulla struttura del grafico e Qϕ lo avvicina attraverso i cluster, otteniamo clustering spettrali. Anche la modellazione linguistica si adatta, trattando la co-occorrenza dei token come una relazione da preservare.
Il tavolo che organizza tutto
Ispirato alla tavola periodica della chimica, il team I-Con ha costruito un algoritmi di categorizzazione della griglia in base ai loro tipi di connessione. Ogni quadrato nella tabella rappresenta un modo unico in cui i punti dati si riferiscono allo spazio input rispetto a output. Una volta collocate tutte le tecniche conosciute, sono rimaste sorprendenti lacune. Queste lacune non hanno indicato i dati mancanti: hanno accennato ai metodi che potrebbero esistere ma non erano ancora stati scoperti.
Per testare questo, i ricercatori hanno colmato uno di questi divario combinando il clustering con l’apprendimento contrastante debiatico. Il risultato: un nuovo metodo che ha sovraperformato i classificatori di immagini senza supervisione esistenti su ImageNet dell’8%. Ha funzionato iniettando una piccola quantità di rumore – “amicizia universale” tra i punti dati – che ha reso il processo di clustering più stabile e meno distorto verso incarichi troppo sicuri.
Il debiasing svolge un ruolo centrale in questa scoperta. L’apprendimento contrastante tradizionale penalizza i campioni dissimili troppo duramente, anche quando quei campioni potrebbero non essere veramente non correlati. I-Con introduce un approccio migliore: miscelazione in una distribuzione uniforme che ammorbidisce ipotesi eccessivamente rigide sulle separazioni dei dati. È una modifica concettualmente pulita con guadagni misurabili nelle prestazioni.
Un altro metodo prevede l’espansione della definizione di quartiere stesso. Invece di guardare solo i vicini più vicini diretti, I-Con si propaga attraverso il grafico del quartiere, prendendo “passeggiate” per catturare più struttura globale. Queste passeggiate simulano il modo in cui le informazioni si diffondono tra i nodi, migliorando il processo di clustering. I test sui trasformatori di Dino Vision confermano che la propagazione su piccola scala (lunghezza di 1 o 2) produce il maggior guadagno senza schiacciare il modello.
Ricerca: L’IA di Google mangia i tuoi clic
Performance e payoff
Il framework i-con non è solo teoria. Su ImageNet-1K, ha battuto i precedenti modelli di clustering all’avanguardia come Temi e Scanting usando funzioni di perdita più semplici e auto-bilancianti. A differenza dei suoi predecessori, I-Con non ha bisogno di penalità o vincoli di dimensioni sintonizzati manualmente. Funziona solo: backbone VIT-S, VIT-B e VIT-L.
Debiased Infonce Clustering (I-Con) Accuratezza ungherese migliorata da:
- +4,5% su Vit-B/14
- +7,8% su Vit-L/14
Ha inoltre sovraperformato K-medie, clustering contrastanti e scansione in modo coerente. La chiave sta nella sua pulita unificazione di metodi e adattabilità: probabilità di cluster, grafici vicini, etichette di classe, tutte rientrano in un unico ombrello.
I-Con non è solo un unificatore; È un progetto per l’invenzione. Dimostrando che molti algoritmi sono solo diversi modi per scegliere le distribuzioni di quartiere, consente ai ricercatori di inventare nuove combinazioni. Scambia un tipo di connessione per un altro. Mescolare in debiasing. Sintonizza la profondità del vicinato. Ogni modifica corrisponde a una nuova voce nella tabella: un nuovo algoritmo pronto per essere testato.
Come diceva Shaden Alshammari di MIT, l’apprendimento automatico sta iniziando a sembrare meno un’arte di congetture e più come uno spazio di design strutturato. I-Con trasforma l’apprendimento in esplorazione: alchimia, più ingegneria.
Ciò che offre davvero I-Con è una filosofia più profonda dell’apprendimento automatico. Rivela che sotto la vasta diversità di modelli e metodi, può esistere una struttura comune, costruita non su formule rigide, ma sulla logica relazionale. In questo senso, I-Con non risolve l’intelligenza. Lo mappa. E come il primo tavolo periodico, ci dà uno sguardo a ciò che sta ancora aspettando di essere scoperto.