Un recente studio from Zurich University of Applied Sciences by Pascal J. Sager, Benjamin Meyer, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. Grewe, and Thilo Stadelmann reveals that AI agents have officially ha superato la loro fase di chatbot.
Gli agenti AI stanno eseguendo lo spettacolo, facendo clic, scorrendo e digitando i flussi di lavoro con precisione inquietante. Questi agenti di controllo del computer basati sulle istruzioni (CCA) possono eseguire comandi, interagendo con ambienti digitali come operatori umani esperti. Ma mentre si avvicinano alla piena autonomia, una cosa diventa chiara: più potenza diamo loro, più diventa difficile tenerli sotto controllo.
Come gli agenti AI stanno imparando a usare i computer come te
Gli strumenti di automazione tradizionali sono macro glorificate: ripetitive, rigide e all’oscuro al di fuori dei loro percorsi scritti. I CCA, d’altra parte, sono costruiti per improvvisare. Non seguono solo le istruzioni; Osservano, interpretano e agiscono in base a ciò che “vedono” su uno schermo, grazie ai modelli di lingua visione (VLM) e ai modelli di linguaggio di grandi dimensioni (LLM). Questo consente loro di:
- Leggi schermi come un essere umanoIdentificazione del testo, dei pulsanti e dei campi di input senza coordinate predefinite.
- Esegui compiti a più fasicome aprire un’e -mail, copiare i dati, incollare in un foglio di calcolo e colpire l’invio, tutto senza supervisione diretta.
- Comprendi le istruzioni del linguaggio naturalerimuovendo la necessità per gli utenti di apprendere script di automazione complessi.
- Adatta al cambiamento delle interfaccerendendoli significativamente più flessibili degli strumenti di automazione basati sulle regole.
Di ‘a un CCA di “trovare i principali lead di vendita di oggi e inviare un’e-mail a un follow-up”, e si muove attraverso le app, estrae dati pertinenti, compone un’e-mail e la invia, proprio come un assistente umano. A differenza dell’RPA di vecchia scuola (automazione del processo robotico) che cade quando un’interfaccia utente cambia, i CCA possono adattarsi in tempo reale, identificando elementi visivi e prendendo decisioni al volo.
La prossima frontiera? Integrazione con repository di conoscenza basati su cloud e processo decisionale autonomo. Più questi agenti imparano, più diventano sofisticate le loro capacità: razzando domande su quanta fiducia dovremmo collocarli.
Come i modelli di linguaggio di grandi dimensioni stanno trasformando la revisione tra pari
I vantaggi: produttività, accessibilità e automazione
Non si può negare che i CCA abbiano seri vantaggi:
- Produttività sugli steroidi: I compiti noiosi e che richiedono tempo svaniscono, permettendo ai lavoratori di concentrarsi su decisioni di valore superiore piuttosto che fare clic su dashboard.
- Rivoluzione dell’accessibilità: Le persone con disabilità possono interagire con la tecnologia più perfettamente attraverso la navigazione e l’automazione delle attività basate sull’intelligenza artificiale.
- Scalabilità a livello aziendale: Le aziende possono automatizzare interi flussi di lavoro senza assumere un esercito di specialisti IT per costruire soluzioni personalizzate.
- Integrazione a livello di sistema: I CCA funzionano su piattaforme e applicazioni diverse, garantendo interazioni digitali senza soluzione di continuità.
- Efficienza sempre attiva: A differenza dei lavoratori umani, questi agenti non si stancano, distraggono o fanno pause pranzo.
I rischi: privacy, sicurezza e fiducia
Per ogni vittoria della produttività, c’è un incubo di sicurezza uguale e opposto in agguato in background. Dare il controllo di intelligenza artificiale sulle interfacce utente non è solo l’automazione: concedere un accesso a una macchina sbiancante a flussi di lavoro sensibili, transazioni finanziarie e dati privati. Ed è qui che le cose diventano complicate.
I CCA operano mediante schermi e analizzando il testo. Chi garantisce che le informazioni sensibili non vengano utilizzate in modo improprio o registrati? Chi tiene sotto controllo i tasti guidati dall’intelligenza artificiale?
Se un agente di intelligenza artificiale può accedere alla tua app bancaria e trasferire denaro con un singolo comando, cosa succede se viene violato? Stiamo consegnando le chiavi digitali del regno con poche garanzie. Se un CCA commette un errore catastrofico – defeli il file sbagliato, invia l’e -mail sbagliata o approva una transazione disastrosa – chi è responsabile? Gli umani possono essere licenziati, multati o addestrati. AI? Non tanto.
E, se un attore dannoso dirotta un CCA, non ricevono solo accesso: ottengono un complice instancabile e automatizzato in grado di scatenare il caos su larga scala. I legislatori si stanno arrampicando per tenere il passo, ma non esiste un playbook per gli assistenti digitali guidati dall’IA che prendono decisioni in tempo reale.
Cosa viene dopo?
Le aziende si stanno muovendo con cautela, cercando di bilanciare i guadagni innegabili di efficienza con i rischi incombenti. Alcune aziende stanno applicando modelli “umani nel loop”, in cui gli agenti AI gestiscono l’esecuzione ma richiedono l’approvazione manuale per le azioni critiche. Altri stanno investendo in politiche di governance dell’IA per creare salvaguardie prima che questi agenti diventino standard nelle operazioni aziendali.
Ciò che è certo è che i CCA non sono una tendenza di passaggio: sono la prossima fase dell’evoluzione dell’IA, incorporando silenziosamente nei flussi di lavoro e nelle interfacce ovunque. Man mano che diventano più capaci, il dibattito non riguarderà se dovremmo usarli, ma come possiamo controllarli.
Immagini: Kerem Gülen/Midjourney