L’ambiguo territorio legale dello sviluppo dell’intelligenza artificiale, dove i video di YouTube si trasformano in carburante per l’apprendimento automatico.
In un recente pezzo di Il New York Times, sono state evidenziate le varie strategie adottate dalle aziende per navigare nell’ambiguo territorio della legge sul copyright dell’IA. Il rapporto è iniziato con un focus su OpenAI, che, nella sua ricerca di dati di addestramento adeguati, avrebbe creato il modello di trascrizione audio Whisper. Questa iniziativa ha consentito la trascrizione di oltre un milione di ore di contenuti YouTube per far avanzare lo sviluppo di GPT-4, il loro modello di linguaggio di grandi dimensioni più recente e più sofisticato.
E… YouTube pretende risposte sui dati di addestramento di Sora.
OpenAI ha davvero utilizzato i video di YouTube per addestrare Sora?
Secondo Il New York Times, OpenAI era consapevole delle potenziali sfide legali, ma ha giustificato l’azione come fair use. Greg Brockman, presidente di OpenAI, ha svolto un ruolo chiave nell’acquisizione di contenuti video a questo scopo, come sottolineato dal Volte.
L’articolo menzionava inoltre che entro il 2021 l’organizzazione aveva esaurito le sue risorse di dati utili, portando a considerare la trascrizione di clip, podcast e audiolibri di YouTube dopo aver esaurito altre strade. A questo punto, la formazione per i suoi modelli aveva già incorporato dati provenienti da fonti come il codice informatico di Github, database di strategie di scacchi e materiale didattico di Quizlet.
Lo ha comunicato Matt Bryant, portavoce di Google Il limite via e-mail che sono stati “visti rapporti non confermati” riguardanti le azioni di OpenAI. Ha ricordato che i file robots.txt e i Termini di servizio di Google vietano chiaramente la raccolta o il download non autorizzato di materiale YouTube, riaffermando le politiche di utilizzo dell’azienda. Allo stesso modo, Neal Mohan, CEO di YouTube, questa settimana ha espresso preoccupazione per il presunto utilizzo dei dati di YouTube per l’addestramento di Sora di OpenAI, un modello di generazione di video. Bryant ha sottolineato che Google applica misure tecniche e legali per frenare tali attività non autorizzate, a condizione che esista una solida base legale o tecnica per l’intervento.

Secondo fonti citate dall’ Volte, Google ha anche estratto le trascrizioni dei video di YouTube. Bryant ha affermato che l’azienda ha utilizzato alcuni contenuti di YouTube per addestrare i suoi modelli, aderendo agli accordi con i creatori di YouTube.
IL Volte ha riferito che l’ufficio legale di Google ha consigliato al proprio team sulla privacy di modificare la formulazione della sua politica per ampliare l’ambito di utilizzo dei dati dei consumatori, inclusi servizi come Google Docs. Va notato che la politica aggiornata è stata pubblicata strategicamente il 1° luglio, con l’obiettivo di sfruttare la distrazione causata dal fine settimana festivo del Giorno dell’Indipendenza.
Allo stesso modo, Meta ha dovuto affrontare sfide legate all’accesso a dati di formazione adeguati e Volte ha ottenuto registrazioni in cui il suo team AI discuteva dell’uso non autorizzato di materiale protetto da copyright nel tentativo di tenere il passo con OpenAI.
Google, OpenAI e altri nel campo dello sviluppo dell’intelligenza artificiale stanno affrontando la diminuzione della disponibilità di dati di addestramento di qualità per i loro modelli, che migliorano con l’aumento del consumo di dati.
Il viaggio di OpenAI è stato segnato da scoperte, ma anche da aree grigie legali ed etiche. La controversia sulla trascrizione di YouTube sottolinea le complessità del diritto d’autore nell’addestramento di modelli di intelligenza artificiale avanzati. Come strumenti come Sora entra a Hollywoodl’azienda si trova ad affrontare un controllo ancora più severo. Altman riuscirà a superare questi ostacoli o sarà già sostituito??
Credito immagine in primo piano: Andrew Neel/Unsplash