OpenAI ha lanciato un’anteprima della ricerca di Operator, un agente AI generico in grado di eseguire compiti in modo indipendente assumendo il controllo di un browser web. Questa funzionalità è disponibile per la prima volta per gli utenti statunitensi con il piano di abbonamento Pro da $ 200 di ChatGPT, con piani di espansione ad ulteriori livelli di utenti in futuro.
Spiegazione dell’operatore OpenAI
L’operatore può automatizzare varie attività, tra cui la prenotazione di alloggi di viaggio, la prenotazione di ristoranti e lo shopping online. Gli utenti possono selezionare tra categorie come acquisti, consegne, ristoranti e viaggi all’interno dell’interfaccia dell’operatore. Una volta attivata, viene visualizzata una finestra del browser Web dedicata, che mostra agli utenti le azioni eseguite dall’Operatore insieme alle spiegazioni. Gli utenti possono mantenere il controllo dei propri schermi mentre Operator opera nel proprio ambiente browser.
OpenAI sostiene che la superintelligenza è più vicina di quanto pensi
L’agente AI è alimentato da un modello CUA (Computer-Using Agent), che combina le capacità di visione del modello GPT-4o con il ragionamento avanzato. CUA interagisce con il front-end dei siti Web senza richiedere API focalizzate sugli sviluppatori. Questa funzionalità gli consente di utilizzare pulsanti, navigare nei menu e compilare moduli come farebbe un essere umano. OpenAI collabora con varie società, tra cui DoorDash, eBay, Instacart e Priceline, garantendo che l’Operatore rispetti i termini dei contratti di servizio.
OpenAI afferma che il modello CUA è progettato per chiedere la conferma dell’utente prima di finalizzare attività che hanno effetti esterni, come l’invio di un ordine o l’invio di un’e-mail. Nonostante le sue capacità, OpenAI avverte che CUA potrebbe non funzionare in modo affidabile in tutti gli scenari e ha difficoltà con attività complesse come la creazione di presentazioni dettagliate, la gestione di calendari complessi o la navigazione in interfacce web non standard.
Per attività sensibili, come le transazioni bancarie, è necessaria la supervisione dell’utente. L’operatore non raccoglie né effettua screenshot dei dati dell’utente e impone la supervisione diretta su siti particolarmente sensibili come la posta elettronica e i servizi finanziari, consentendo agli utenti di risolvere tempestivamente eventuali errori.
L’operatore ha alcune limitazioni. OpenAI applica limiti di velocità, sia giornalieri che dipendenti dalle attività, e specifica che determinate attività, come l’invio di e-mail o l’eliminazione di eventi del calendario, verranno rifiutate per motivi di sicurezza. OpenAI prevede di rivedere queste restrizioni in futuro, sebbene non venga fornita alcuna tempistica specifica. https://www.youtube.com/watch?v=m0Cjiq8P6iU
L’operatore potrebbe anche incontrare difficoltà con interfacce web complesse, campi password e controlli CAPTCHA, spingendo l’utente a intervenire a quel punto. OpenAI riconosce i rischi per la sicurezza associati ai sistemi di intelligenza artificiale che possono eseguire azioni sul web, sottolineando la necessità di prevenire potenziali exploit da parte di attori malintenzionati.
OpenAI ha implementato diverse misure di sicurezza. L’agente richiede input di controllo da parte dell’utente durante transazioni sensibili ed effettua conferme da parte dell’utente prima di azioni significative. L’operatore rifiuta compiti specifici ad alto rischio e richiede la supervisione diretta su piattaforme sensibili. Le misure investigative includono una navigazione cauta per prevenire iniezioni tempestive, un sistema di monitoraggio per sospendere le operazioni durante attività sospette e una pipeline di rilevamento automatizzato per garanzie aggiornate.
Cos’è l’operatore di OpenAI e come funziona?
L’operatore è un agente AI generico in grado di eseguire autonomamente attività sul Web utilizzando un browser dedicato. Interagisce con i siti Web facendo clic sui pulsanti, navigando nei menu e compilando moduli.
In che modo Operator è diverso da altri strumenti di intelligenza artificiale come Siri, Alexa o Google Assistant?
A differenza degli assistenti tradizionali, Operator non si limita a elaborare le informazioni; può eseguire azioni sul web, come prenotare alloggi o ordinare generi alimentari, interagendo direttamente con i siti web.
Quali compiti può eseguire l’Operatore in autonomia?
Può gestire attività ripetitive come prenotare viaggi, ordinare cibo, effettuare prenotazioni e fare acquisti online.
Perché Operator viene lanciato prima come anteprima di ricerca?
L’anteprima della ricerca consente a OpenAI di raccogliere feedback, migliorare la sicurezza e perfezionare lo strumento prima di un’implementazione più ampia.
Cos’è il modello Computer-Using Agent (CUA) e come consente all’Operatore di interagire con i siti web?
CUA combina le capacità di visione di GPT-4o con il ragionamento avanzato, consentendo all’operatore di vedere e interagire con interfacce utente grafiche come pulsanti e moduli.
L’operatore può eseguire attività complesse come la creazione di presentazioni o la gestione di calendari?
Non ancora. L’operatore ha difficoltà con interfacce complesse e flussi di lavoro specializzati.
Quali sono i limiti di velocità o le limitazioni delle attività per l’utilizzo di Operator?
L’operatore ha limiti di utilizzo giornalieri dinamici e specifici per attività e non può eseguire attività come l’invio di e-mail o la gestione dei CAPTCHA.
In che modo l’Operatore gestisce attività sensibili come le operazioni bancarie o l’inserimento dei dettagli di pagamento?
Richiede la supervisione dell’utente per azioni sensibili, come l’immissione di dettagli di pagamento o di accesso, e non memorizza tali dati.
In che modo OpenAI garantisce la sicurezza e l’affidabilità dell’Operatore?
L’operatore è progettato con protezioni, tra cui conferme dell’utente, modalità di acquisizione per input sensibili e monitoraggio di attività dannose.
Quali misure di salvaguardia sono in atto per evitare che l’Operatore commetta errori o venga utilizzato in modo improprio?
Richiede la conferma dell’utente prima di completare azioni significative e utilizza sistemi di monitoraggio per sospendere le attività se viene rilevata un’attività sospetta.
In che modo l’Operatore gestisce i problemi di privacy e gli utenti possono disattivare la raccolta dei dati?
Gli utenti possono disattivare la raccolta dei dati, eliminare i dati di navigazione e controllare le impostazioni sulla privacy tramite l’interfaccia dell’Operatore.
Cosa succede se l’Operatore incontra tentativi di phishing o siti Web dannosi?
È addestrato a rilevare e ignorare input dannosi e un sistema di monitoraggio può sospendere le attività se si verifica qualcosa di sospetto.
Chi può utilizzare Operator e quanto costa?
Attualmente, Operator è disponibile per gli utenti statunitensi con il piano di abbonamento Pro da $ 200 di ChatGPT.
Quando sarà disponibile l’Operatore al di fuori degli Stati Uniti, soprattutto in Europa?
OpenAI prevede di implementarlo a livello globale, ma in Europa potrebbe essere necessario più tempo a causa di considerazioni regionali.
L’Operatore sarà eventualmente incluso in tutti i livelli di abbonamento ChatGPT?
Sì, OpenAI prevede di espandere l’accesso ai livelli Plus, Team ed Enterprise.
Gli sviluppatori saranno in grado di creare strumenti personalizzati utilizzando il modello CUA in futuro?
Sì, OpenAI prevede di rilasciare il modello CUA nell’API per consentire agli sviluppatori di creare i propri agenti.
Con quali aziende OpenAI collabora per Operator e in che modo ciò avvantaggia gli utenti?
OpenAI collabora con aziende come DoorDash, Instacart e Uber per ottimizzare le funzionalità dell’Operatore rispettando i termini di servizio.
Credito immagine in primo piano: OpenAI