Cosa succede se l’automazione di un desktop non si trattasse di modelli di clic di script, ma di dare al tuo sistema operativo un team di agenti intelligenti? Questa è l’idea principale dietro Ufo2Il più recente sistema open source di Microsoft che spinge oltre gli attuali agenti di uso del computer (CUAS) e reinventa l’automazione come astrazione di OS di prima classe. Trasforma il tuo desktop in un pannello di controllo intelligente in cui le attività guidate dal linguaggio vengono eseguite in modo nativo, affidabile e con una interruzione minima per il flusso di lavoro.
Gli strumenti di automazione desktop tradizionali come i sistemi RPA hanno sempre lottato con robustezza. Un piccolo cambiamento in un’interfaccia utente può distruggere un’intera sceneggiatura. I CUAS hanno cercato di affrontarlo con modelli di linguaggio di grandi dimensioni e analisi dello schermo, ma sono rimasti limitati dall’integrazione di sistema superficiale e dalle esperienze utente goffi. UFO2 lancia questo modello costruendo dal sistema operativo verso l’alto. Introduce un’architettura multiagente in cui a Ostagent centrale coordinate specializzate Appagenti per diverse applicazioni. Ogni agente parla la lingua madre dell’app tramite API e metadati dell’interfaccia utente, non solo pixel.

Una delle principali innovazioni tecniche di UFO2 è il suo modello di azione ibrida. Invece di fare clic su pulsanti come un essere umano, ogni appagente può chiamare API reali quando disponibile. Ciò significa che compiti come l’esportazione di un foglio di calcolo o il testo di formattazione sono ridotti dalle danze della GUI a più fasi a una singola chiamata di funzione atomica. Il sistema specula anche in anticipo, utilizzando una singola chiamata LLM per pianificare più passaggi e convalidare ciascuno in diretta con i dati dell’interfaccia utente di Windows. Questo Esecuzione multi-azione speculativa Riduce drasticamente la latenza senza rischiare la correttezza.
Isolamento senza interruzione
I CUAS in genere dirottano il desktop, bloccando il mouse e la tastiera durante l’esecuzione. Ufo2’s Immagine-in-picture (PIP) La modalità risolve questo con una finestra desktop virtuale che esegue le attività di automazione in parallelo. L’agente fa le sue cose in un ambiente sandbox, mentre continui a lavorare nella sessione principale. È senza soluzione di continuità, sicuro e utilizza il loopback RDP di Windows Native per mantenere l’integrità della sessione.

UFO2 integra i registri della documentazione e dell’esecuzione della Guida in una memoria aumentata dal recupero, arricchendo i suoi suggerimenti con le conoscenze procedurali. Nel tempo, questo crea un agente auto-miglioramento che migliora in nuovi compiti senza riqualificare. Ogni Appagent tira dalla documentazione, dalle note di patch e dalle esecuzioni precedenti per prendere decisioni più intelligenti. È un sistema di automazione con memoria, non solo generazione di risposta.
Nei benchmark testa a testa contro l’operatore di Openi e altri migliori CUA, UFO2 supera costantemente. Sul benchmark di OsWorld-W, UFO2 raggiunge un tasso di successo del 32,7% utilizzando il modello O1, più che raddoppiando il 14,3% dell’operatore. La sua pianificazione speculativa riduce le fasi di azione fino al 50%. Il rilevamento del controllo ibrido (che combina API UIA e analisi della visione) recupera oltre il 25% delle interazioni precedentemente fallite. In poche parole, UFO2 non è solo più intelligente: è sistematicamente meglio.
Adesso è tutto un agente
L’estensibilità è cotta. UFO2 consente a strumenti di terze parti, inclusi altri CUA come l’operatore, di essere avvolti come appagenti. Ciò significa che è possibile integrare copiloti specializzati o backup di automazione proprietaria nell’ecosistema UFO2 senza riqualificare o riscrivere il codice. Supporta inoltre un’architettura client-server per la distribuzione aziendale, mantenendo leggera l’orchestrazione e i dispositivi utente.
L’articolo delinea gli obiettivi futuri, tra cui la compatibilità multipiattaforma con MacOS e Linux tramite API di accessibilità analoghe, risposta più rapida tramite LLM più piccole e miglioramento del ragionamento da set di dati dedicati di interazione GUI. Ma anche nel suo stato attuale, UFO2 rappresenta a Nuova base per l’automazione desktop. È open-source, già sovraperformando i sistemi commerciali e porta un nuovo livello di modularità, affidabilità e intelligenza all’interazione umana-computer.
Per chiunque costruisca la prossima generazione di agenti intelligenti, o solo stanchi di fragili sceneggiature—UFO2 è disponibile su GitHub insieme alla sua documentazione.
Credito d’immagine in primo piano