L’apprendimento per rinforzo è supervisionato o non supervisionato? Anche se questa questione tecnica è importante, spostiamo la nostra attenzione su un obiettivo aziendale. L’apprendimento per rinforzo (RL) racchiude un immenso potenziale per trasformare i processi decisionali e ottimizzare le strategie in tutti i settori.
L’enorme volume di dati prodotti da computer, smartphone e varie tecnologie può essere scoraggiante, soprattutto per chi non è sicuro delle sue implicazioni. Per sfruttare questi dati in modo efficace, ricercatori e programmatori utilizzano spesso l’apprendimento automatico per migliorare le esperienze degli utenti.
Ogni giorno emergono metodologie sofisticate per i data scientist che comprendono tecniche di apprendimento supervisionato, non supervisionato e di rinforzo. Questo articolo mira a descrivere brevemente l’apprendimento supervisionato, non supervisionato e per rinforzo, evidenziandone le distinzioni e illustrando le loro applicazioni da parte di aziende importanti.
L’apprendimento per rinforzo è supervisionato o non supervisionato?
L’apprendimento per rinforzo traccia il proprio percorso nel mondo dell’apprendimento apprendimento automatico, distinto sia dall’apprendimento supervisionato che da quello non supervisionato. Ma prima impariamo cosa sono l’apprendimento supervisionato e quello non supervisionato.
Cos’è l’apprendimento supervisionato?
L’apprendimento supervisionato è una tecnica di machine learning in cui un modello viene addestrato su un set di dati etichettato. Ciò significa che i dati includono sia esempi di input che i corrispondenti output desiderati (etichette). L’obiettivo è che il modello apprenda la relazione tra input e output, in modo da poter prevedere con precisione l’output per dati nuovi e invisibili.
Pensalo come uno studente che impara con un insegnante. Il set di dati etichettato è come un problema pratico con soluzioni. Lo studente (il modello) studia questi esempi e l’insegnante (l’algoritmo) guida il processo di apprendimento. L’obiettivo è che lo studente impari a risolvere problemi simili in modo indipendente.
Concetti chiave:
- Dati etichettati: Il cuore dell’apprendimento supervisionato. Ogni punto dati ha un input (caratteristiche) e il corrispondente output corretto (etichetta).
- Formazione: Il modello viene alimentato con i dati etichettati. Analizza modelli e correlazioni tra input e output.
- Funzione di apprendimento: Il modello sviluppa una funzione matematica che associa gli input agli output nel modo più accurato possibile.
- Predizione: Una volta addestrato, il modello può ricevere nuovi input e prevedere i relativi output.

Cos’è l’apprendimento non supervisionato?
L’apprendimento non supervisionato è una tecnica di machine learning in cui il modello viene addestrato su un set di dati senza etichetta. Ciò significa che i dati includono solo gli input, senza output target corrispondenti. L’obiettivo è che il modello scopra modelli, strutture o relazioni nascoste all’interno dei dati stessi.
Pensalo come un bambino che esplora un nuovo ambiente senza istruzioni specifiche. Il bambino impara osservando schemi, raggruppando oggetti simili e comprendendo le relazioni senza che nessuno gli dica direttamente come si chiamano le cose.
Concetti chiave:
- Dati senza etichetta: L’apprendimento non supervisionato non ha risposte predefinite da cui imparare.
- Scoperta del modello: Il modello analizza i dati per trovare somiglianze, differenze e strutture sottostanti.
- Nessuna guida esplicita: Nessun “maestro” corregge il modello. Impara attraverso la scoperta di sé.

Cos’è l’apprendimento per rinforzo?
L’apprendimento per rinforzo è un tipo di apprendimento automatico in cui un agente apprende attraverso prove ed errori interagendo con un ambiente. L’agente prova diverse azioni, riceve premi o penalità in base alle sue azioni e adatta la sua strategia per massimizzare la ricompensa totale nel tempo.
Immagina di addestrare un cane. Non dici esplicitamente al cane come sedersi. Invece, gli dai delle ricompense (dolcetti) quando esegue azioni che lo portano a sedersi. Col tempo, il cane impara ad associare la seduta alle ricompense
Concetti chiave:
- Agente: Il decisore, l’entità che apprende.
- Ambiente: Il sistema con cui interagisce l’agente.
- Stato: La situazione attuale dell’agente nel suo ambiente.
- Azioni: Cosa può fare l’agente nel suo ambiente.
- Premi: Segnali di feedback positivi o negativi che l’agente riceve per le sue azioni.
- Politica: La strategia utilizzata dall’agente per determinare quale azione intraprendere in un determinato stato.

Quale tecnica di machine learning scegliere?
Non esiste un’unica tecnica di machine learning “migliore” che superi universalmente tutte le altre. La tecnica migliore dipende interamente da questi fattori:
- Il problema: Quale compito stai cercando di risolvere?
- Classificazione (ad esempio, filtraggio dello spam tramite posta elettronica)?
- Regressione (ad esempio, previsione dei prezzi delle case)?
- Clustering (ad esempio, raggruppamento di clienti)
- Rilevamento di anomalie (ad esempio, identificazione di transazioni fraudolente)?
- Tipo di dati:
- I tuoi dati sono etichettati o non etichettati?
- Quanto è grande il tuo set di dati?
- I dati sono strutturati (ad esempio numeri, categorie) o non strutturati (ad esempio immagini, testo)?
- Prestazioni desiderate:
- Dai priorità alla velocità o all’elevata precisione?
- Quanto è importante che il modello sia facilmente interpretabile (capire come prende le decisioni)?
Scegli l’apprendimento supervisionato se disponi di un set di dati con esempi etichettati (dati di input e relativi output corretti). Le tecniche più diffuse includono la regressione lineare (per prevedere valori continui), la regressione logistica (per la classificazione), gli alberi decisionali (per la creazione di modelli basati su regole), le SVM (per trovare i confini tra classi di dati) e le reti neurali (per il riconoscimento di modelli complessi).
L’apprendimento non supervisionato è perfetto per esplorare il tuo set di dati, scoprire modelli nascosti o raggruppare punti dati simili quando non hai in mente un risultato predefinito. Le tecniche più diffuse includono il clustering delle medie K (raggruppamento dei dati per somiglianza), l’analisi delle componenti principali (PCA) (per ridurre la complessità dei dati) e gli autoencoder (per trovare rappresentazioni compatte dei dati).
L’apprendimento per rinforzo è particolarmente utile per i problemi incentrati sul processo decisionale con ricompense a lungo termine, come nei giochi o nella robotica. Nell’apprendimento per rinforzo, un agente interagisce con un ambiente, ottiene feedback sotto forma di premi o penalità e apprende la strategia ottimale per massimizzare i premi nel tempo.
Crediti immagine: Kerem Gülen/Metà viaggio





