La nuova versione di OpenAI introdotto la scala interna mira a valutare sistematicamente i progressi e le capacità dei suoi sistemi di intelligenza artificiale:
Livello | Capacità |
Livello 1 |
Si impegna in semplici attività conversazionali, simili agli attuali chatbot come ChatGPT
|
Livello 2 | Risolve problemi di base al livello di un dottore di ricerca |
Livello 3 |
Intraprende azioni per conto degli utenti, dimostrando utilità pratica
|
Livello 4 |
Crea soluzioni e innovazioni innovative, dimostrando creatività e adattabilità
|
Livello 5 |
AGI – Esegue attività equivalenti a quelle di intere organizzazioni, superando le prestazioni a livello umano in vari compiti
|
Questa scala, che va dal Livello 1 al Livello 5, cerca di tracciare la progressione verso il raggiungimento Intelligenza Artificiale Generale (AGI) — il Santo Graal dello sviluppo dell’intelligenza artificiale, in cui le macchine esibiscono capacità cognitive simili a quelle umane.
Comprendere i cinque livelli di sviluppo dell’intelligenza artificiale di OpenAI
Ecco una ripartizione dettagliata di come viene definito ciascun livello e dei criteri utilizzati per valutare la potenza dei sistemi di intelligenza artificiale:
Livello 1: IA conversazionale di base
I sistemi di intelligenza artificiale a questo livello possono svolgere semplici attività conversazionali, simili agli attuali chatbot come ChatGPT.
Criteri di valutazione:
- Abilità di elaborazione del linguaggio naturale (NLP): Capacità di comprendere e generare risposte testuali simili a quelle umane.
- Esecuzione di attività di base: Esecuzione di compiti semplici come rispondere a domande, fornire informazioni e impegnarsi in un dialogo di base.
- Comprensione contestuale: Capacità limitata di mantenere il contesto durante un’interazione breve
Livello 2: IA avanzata per la risoluzione dei problemi
I sistemi di intelligenza artificiale a questo livello sono in grado di risolvere problemi di base al livello di una persona con un dottorato di ricerca.
Criteri di valutazione:
- Risoluzione di problemi complessi: Capacità di affrontare problemi accademici e teorici in ambiti specifici.
- Conoscenza specializzata: Profondità di comprensione in campi specifici, che dimostri competenze simili a quelle di un dottorato.
- Capacità analitiche: Capacità di eseguire analisi dettagliate e di trarre conclusioni fondate.
Livello 3: IA di azione autonoma
Gli agenti di intelligenza artificiale a questo livello possono intraprendere azioni autonome per conto degli utenti.
Criteri di valutazione:
- Il processo decisionale: Capacità di prendere decisioni informate basate su dati forniti e obiettivi predefiniti.
- Automazione delle attività: Esecuzione di compiti senza intervento umano, dimostrando autonomia in varie applicazioni.
- Interazione dell’utente: Efficacia nell’interazione con gli utenti per raccogliere le informazioni necessarie ed eseguire le azioni di conseguenza.
Livello 4: IA innovativa
I sistemi di intelligenza artificiale a questo livello possono creare nuove innovazioni e dimostrare creatività e adattabilità.
Criteri di valutazione:
- Generazione di innovazione: Capacità di sviluppare soluzioni e idee innovative, originali e preziose.
- Apprendimento adattivo: Capacità di apprendere e adattarsi a nuove informazioni ed esperienze, migliorando nel tempo.
- Risoluzione di problemi creativa: Dimostrare ingegnosità nell’affrontare e risolvere problemi complessi.
Livello 5: AGI (Intelligenza Artificiale Generale)
Il livello finale rappresenta l’intelligenza artificiale in grado di svolgere il lavoro di intere organizzazioni, superando le prestazioni umane nella maggior parte dei compiti economicamente preziosi.
Criteri di valutazione:
- Ampio set di competenze: Padronanza di un’ampia gamma di compiti e domini, dimostrando versatilità e conoscenza approfondita.
- Valore economico: Capacità di generare un valore economico significativo eseguendo compiti complessi in modo più efficiente rispetto ai team umani.
- Funzionamento autonomo: Elevato grado di autonomia, gestione ed esecuzione di operazioni su larga scala senza supervisione umana.
- Generalizzazione: Capacità di applicare conoscenze e competenze a problemi e contesti non familiari, dimostrando una vera intelligenza generale.
Come fa OpenAI a essere così sicura di questi livelli?
Per garantire l’accuratezza e l’affidabilità della potenza della sua intelligenza artificiale, OpenAI prevede di condurre rigorose valutazioni interne dei suoi sistemi di intelligenza artificiale attraverso diversi metodi chiave.
Test di benchmark comprende test standardizzati progettati per misurare capacità specifiche e parametri di prestazione allineati ai criteri di ogni livello. Questi test forniscono un quadro coerente per la valutazione dei sistemi di IA, garantendo valutazioni oggettive e identificando aree di miglioramento.
Revisione degli esperti coinvolge esperti di dominio per valutare le prestazioni dei sistemi AI in campi specializzati. Questi esperti assicurano valutazioni approfondite e accurate, convalidando che l’AI soddisfi gli elevati standard richiesti per ogni livello.
Scenari del mondo reale testare i sistemi AI in applicazioni pratiche per convalidarne l’efficacia e l’affidabilità. Questo approccio consente a OpenAI di osservare come i sistemi si comportano in ambienti dinamici, garantendo robustezza e utilità pratica.
Feedback degli utenti comporta la raccolta e l’analisi del feedback degli utenti che interagiscono con i sistemi di intelligenza artificiale. Questo feedback fornisce approfondimenti sull’utilità pratica e sulla soddisfazione dell’utente, evidenziando punti di forza e aree di miglioramento.
Combinando questi metodi, OpenAI mira a valutare e verificare approfonditamente i propri sistemi di intelligenza artificiale, assicurandosi che soddisfino i criteri per ogni livello della scala di potenza e guidando i progressi verso il raggiungimento dell’intelligenza artificiale generale (AGI).
Tutte le immagini sono generate da Eray Eliacık/Bing