Le auto a guida autonoma dovrebbero essere il futuro. L’intelligenza artificiale dovrebbe prendere la ruota, navigare in modo impeccabile ed eliminare l’errore umano. Eppure eccoci qui, ancora afferrando le nostre ruote di sterzo mentre l’IA inciampa attraverso le simulazioni, commettendo errori che vanno da esilaranti cattivi a decisamente pericolosi.
Perché? Perché l’IA impara attraverso Prova ed errore—L’equivalente digitale di lanciare freccette al buio fino a quando non colpisce finalmente il bullseye. Va bene quando la posta in gioco è bassa, come giocare a scacchi o ottimizzare gli annunci. Ma quando si tratta di applicazioni del mondo reale-dove un errore significa arare in un pedone-questo approccio cade a pezzi.
Secondo uno studio condotto da Zhenghao Peng, Wenjie Mo, Chenda Duan e Bolei Zhou da Università della California, Los Angeles (UCLA)insieme a Quanyi li da Università di EdimburgoL’allenamento AI può essere notevolmente migliorato usando Propagazione del valore proxy (PVP). La loro ricerca, intitolata Imparare dal coinvolgimento umano attivo attraverso la propagazione del valore proxysfida l’apprendimento del rinforzo tradizionale dimostrandolo L’intervento umano attivo porta a una formazione AI più veloce, più sicura ed efficiente.
Tradizionale Apprendimento del rinforzo (RL)il modo standard in cui l’IA impara a prendere decisioni, è dolorosamente lento. Richiede milioni di tentativi Prima di un’intelligenza artificiale scopri cosa funziona. Peggio ancora, presuppone che l’IA possa comprendere l’intenzione umana solo seguendo un sistema di ricompensa, quando in realtà, i sistemi di ricompensa spesso portano a comportamenti bizzarri e non intenzionali. Pensa a un AI addestrato a vincere una gara che capisce che può semplicemente guidare in cerchio sulla linea di partenza per accumulare punti “Distance percorsa” senza mai finire il percorso.
Chiaramente, l’IA ha bisogno di un insegnante migliore. E quell’insegnante? Voi.
Lascia che gli umani intervengano in tempo reale
Propagazione del valore proxy (PVP) è un nuovo metodo che trasforma l’allenamento di intelligenza artificiale in qualcosa di molto più umano. Invece di lasciare che l’IA inserisca attraverso i suoi errori per mesi, PvP fa entrare, intervenire e mostrare l’IA cosa fare. in tempo reale.
- Immagina che l’IA stia imparando a guidare in una simulazione, diciamo, Grand Theft Auto V (GTA V).
- L’intelligenza artificiale prende una decisione terribile, per esempio, eseguendo una luce rossa direttamente nel traffico.
- Invece di guardare il caos svolgersi, un essere umano prende il controllo in quel momento e corregge l’azione dell’intelligenza artificiale.
- Il sistema quindi etichetta la decisione dell’uomo come a Mossa “buona” e l’errore precedente dell’intelligenza artificiale come Mossa “cattiva”.
- Usando una tecnica chiamata propagazione del valoreL’intelligenza artificiale diffonde questa correzione in situazioni simili, imparando a evitare decisioni sbagliate senza bisogno di milioni di tentativi.
Il risultato è sorprendente. Ai impara molto Più velocecon meno errorie, soprattutto, in realtà è Si allinea alle aspettative umane Invece di inseguire ciecamente punti di ricompensa.
AI Struggles With Strategy: Study mostra che LLMS rivelano troppo nei giochi di detrazione sociale
I numeri non mentono: PvP funziona
Il team dietro PvP lo ha messo alla prova GTA V, Carla (un simulatore di guida) e Minigrid (un compito di navigazione del labirinto virtuale). I risultati sono stati sbalorditivi:
- AI addestrato con PvP appreso 10 volte più veloce dei metodi tradizionali.
- Richiedeva solo 1.200 interventi umani—Chared to the 300.000 I tentativi di intelligenza artificiale in genere hanno bisogno in RL.
- Il tasso di successo dell’intelligenza artificiale addestrata dal PVP nel raggiungere le destinazioni in sicurezza era 85%rispetto al solo 20-50% per metodi precedenti.
- Ai fatto 75% in meno di errori critici Se addestrato con PvP rispetto a tradizionale apprendimento di rinforzo.
In altre parole, l’IA ha effettivamente iniziato a guidare Come un essere umano—Non solo un robot programmato per massimizzare i premi astratti.
Una vittoria per AI e per gli umani
PVP non è solo migliore per l’IA. Rende anche la vita più facile per le persone che la addestrano. La formazione tradizionale dell’intelligenza artificiale richiede una costante supervisione umana, ore di feedback e molta pazienza. Con PvP, AI aveva bisogno 50% in meno di sforzo umano Allenarsi. Tester classificati con AI addestrati da PVP 4.8 su 5 per precisionerispetto al solo 3.0 per metodi più vecchi. AI che ha seguito l’addestramento PVP causato significativamente meno stress Per i formatori umani, perché non richiedeva costantemente correzioni. Per una tecnologia che dovrebbe semplificare la nostra vita, è un enorme passo avanti.
Da GTA alle strade
PVP si è già dimostrato nei test di guida virtuali. La vera domanda è: può funzionare Applicazioni del mondo reale?
Il potenziale è enorme. Invece di fare affidamento esclusivamente su regole pre-programmate, l’IA potrebbe imparare direttamente dall’intervento umano, rendendolo più sicuro, più veloce. I robot basati sull’intelligenza artificiale nei magazzini, negli ospedali o persino nelle case potrebbero essere addestrati in tempo reale anziché attraverso prove ed errori. I medici umani potrebbero intervenire durante gli interventi chirurgici o le diagnosi assistite dall’intelligenza artificiale, insegnando direttamente al sistema ciò che è giusto o sbagliato.
A volte, l’obiettivo è solo quello di fare AI abbastanza umano—Peri agire in modi che ci aspettiamo, di allinearsi con i nostri valori ed evitare errori che ci mettono a rischio.
Credito immagine in primo piano: Kerem Gülen/Midjourney