La fotogrammetria è stata a lungo un punto fermo nella ricostruzione della scena 3D, ma la sua pipeline tradizionale, i requisiti di immagine densa, le fasi di elaborazione disconnessa e l’errore cumulativo sono stati un collo di bottiglia testardo. Il nuovo modello Matrix3D di Appledettagliato in un recentemente rilasciato Documento di ricercapresenta un framework unificato progettato per rimuovere tali barriere integrando più attività di fotogrammetria in un unico sistema generativo.
A differenza dei tradizionali flussi di lavoro fotogrammetria, che si basano su strumenti separati per la stima della posa, la previsione della profondità e la nuova sintesi di visualizzazione, Matrix3D gestisce tutte queste funzioni all’interno di un modello. Questo spostamento è più di un consolidamento tecnico. Rappresenta un’evoluzione filosofica verso sistemi end-to-end adattabili in grado di affrontare la ricostruzione 3D con input minimi, A volte anche da una singola immagine.
Un approccio all-in-one alla fotogrammetria
Matrix3D è costruito su un trasformatore di diffusione multimodale (Dit) Architecture. Ciò significa che non impara solo dalle immagini RGB, ma anche da mappe di profondità e posa della fotocamera, tutte codificate in una rappresentazione 2D unificata. Ad esempio, converte la geometria 3D in mappe di profondità 2.5D e rappresenta le informazioni sulla fotocamera utilizzando mappe Ray Plücker. Questo design gli consente di applicare tecniche dai moderni modelli di immagini generative alla generazione 3D multi-visione.
Il modello opera imparando a prevedere le modalità mancanti dagli input mascherati. Durante l’addestramento, Matrix3D è esposto a set di dati parzialmente completi, alcuni con solo coppie di posti immagine, altre con coppie di profondità di immagine. La strategia di mascheramento espande in modo significativo il pool di formazione utilizzabile e insegna il modello a generalizzare tra le configurazioni di input. Rimuovendo la dipendenza da set di dati completi, migliora anche la robustezza del modello nelle applicazioni pratiche e del mondo reale.

Performance attraverso compiti
I ricercatori di Apple hanno confrontato Matrix3D su più set di dati, anche CO3D, DTU e GSO. Per la stima della posa in condizioni di input sparse, Matrix3D ha sovraperformato i modelli all’avanguardia come Raydiffusion e Dust3R. La sua capacità di stimare le pose della fotocamera da sole due o tre immagini si è rivelata superiore sia nell’accuratezza della rotazione che della traduzione.
Nella nuova sintesi di View, il modello ha ottenuto punteggi competitivi di PSNR e SSIM attraverso varie configurazioni della fotocamera. Se testato contro sistemi principali come Syncdreamer, Wonder3DE Zero123xl, Matrix3D ha costantemente fornito risultati a fedeltà più elevata. L’aggiunta di mappe di profondità ha ulteriormente migliorato queste metriche, mostrando la forza della sua gestione della modalità ibrida.
Per la stima della profondità, Matrix3D ha dimostrato di nuovo la sua adattabilità. Anche se il modello è stato addestrato su più viste, si è comportato bene in compiti monoculari, superando modelli di profondità specializzati come Metric3D V2 e profondità qualsiasi cosa V2. Ciò è stato particolarmente evidente in scene complesse del set di dati DTU, in cui Matrix3D ha prodotto un errore relativo inferiore e punteggi di deviazione quadrata media radicale.

Una delle caratteristiche straordinarie di Matrix3D è la sua Capacità di ricostruire la geometria 3D da input estremamente limitati. Il modello può iniziare da una singola immagine, stimare le pose della fotocamera mancante e le mappe di profondità e sintetizzare le viste aggiuntive necessarie per inizializzare una pipeline 3D Gaussias Splatting (3DGS). Questi passaggi in precedenza richiedevano strumenti separati o dati di input estesi. Ora possono essere eseguiti in un framework unificato che semplifica l’intero processo di ricostruzione.
Con Matrix3D, anche set di immagini sparse non disposte diventano praticabili per la ricostruzione 3D. Il modello stima autonomamente posa, riempie le viste mancanti e prepara l’input per i motori di rendering. I suoi risultati sono stati validati rispetto a parametri di riferimento e confronti visivi, mostrando una promettente accuratezza nonostante abbia operato con meno risorse rispetto ai metodi concorrenti. Matrix3D fornisce risultati comparabili a sistemi multi-GPU come CAT3D durante l’esecuzione in modo efficiente su una singola GPU.

In compiti ibridi, Matrix3D è posizionata in modo univoco. Può ingerire combinazioni arbitrarie di input di RGB, posa e profondità e generare le uscite corrispondenti senza bisogno di riqualificazione o cambiamenti architettonici. Questa capacità apre le porte per un’applicazione più ampia nella progettazione 3D interattiva, nella generazione di contenuti AR/VR e nella scansione dell’ambiente in tempo reale.
- QuantitativamenteMatrix3D imposta nuovi benchmark in diverse attività di fotogrammetria. Nella stima della posa, raggiunge oltre il 96 percento di precisione di rotazione relativa con solo due viste. Per una nuova sintesi di visualizzazione, fornisce punteggi SSIM e PSNR superiori su più configurazioni. Previsione approfondita, registra errori relativi assoluti più bassi e rapporti inlier più elevati rispetto alle baseline specializzate.
- Qualitativamentei miglioramenti sono ugualmente sorprendenti. Le uscite visive mostrano geometria più nitida, meno artefatti e migliore coerenza attraverso i punti di vista. Rispetto ai modelli precedenti, Matrix3D fornisce rendering stabili anche con vincoli di input difficili. Ciò rafforza l’utilità di condutture di fotogrammetria unificata e basata sulla diffusione come frontiera successiva nella generazione 3D.