Il controverso argomento delle cause legali sul copyright dell’IA sta guadagnando terreno, con molti che sostengono che sia giunto il momento che le imprese di intelligenza artificiale compensino le grandi quantità di dati di provenienza gratuita che hanno rafforzato i loro sistemi generativi.
In una recente ondata di controversie legali, negli Stati Uniti e in Europa sono emerse una moltitudine di cause legali che richiedono compensi da parte di entità di intelligenza artificiale. Le parti in causa vanno da singoli autori e artisti a grandi conglomerati mediatici, tutti esprimono le loro obiezioni all’appropriazione da parte dell’intelligenza artificiale delle loro creazioni per generare ramificazioni inferiori agli standard.
Una lettera aperta di grande impatto da parte di Gilda degli autori, con oltre 8.500 firme di scrittori di spicco come Margaret Atwood, Dan Brown e Jodi Picoult, ha invitato i creatori di applicazioni di intelligenza artificiale generativa, tra cui ChatGPT e Bard, a fermare l’uso non autorizzato di opere letterarie e a fornire il giusto risarcimento. Questi autori chiedono un risarcimento per i dati “raccolti” per nutrire questi sistemi di intelligenza artificiale, paragonandoli a un banchetto non pagato.

Gli scrittori temono anche che l’intelligenza artificiale generativa possa minare la loro arte inondando il mercato con contenuti automatizzati derivati dai loro lavori originali. Questa preoccupazione è stata evidenziata di recente quando Amazon è dovuta intervenire per affrontare il problema dei libri generati dall’intelligenza artificiale che affollavano le sue classifiche dei bestseller.
Prima che la Authors Guild presentasse il suo appello, gli autori Mona Awad e Paul Tremblay hanno avviato un procedimento legale contro OpenAI. Hanno denunciato la violazione del copyright sulla base del fatto che i riassunti accurati dei loro libri di ChatGPT implicavano che l’intelligenza artificiale fosse stata addestrata sul loro materiale protetto da copyright. Non sono soli in questa battaglia; anche l’autrice e comica Sarah Silverman ha intentato una causa contro OpenAI e Meta, accusandoli di replica non autorizzata della sua autobiografia, “The Bedwetter”. Tuttavia, la complessità delle funzionalità dell’intelligenza artificiale generativa potrebbe complicare la validità legale di queste affermazioni.
Non sono solo gli individui a entrare nella mischia legale. Con una mossa storica, il New York Times si è posizionato come il primo grande organo di informazione americano a intentare una causa contro OpenAI, contestando l’uso di materiale protetto da copyright nella formazione e nello sviluppo dell’intelligenza artificiale.
Cause sul copyright dell’intelligenza artificiale: il motivo dietro
Il crescente fenomeno delle cause legali sul copyright dell’IA è emblematico di una crescente resistenza all’uso incontrollato di contenuti protetti da copyright da parte delle società di intelligenza artificiale. Sebbene piattaforme come ChatGPT siano state sviluppate utilizzando dati provenienti da Internet, lo hanno fatto senza il consenso esplicito dei creatori di tali dati. In particolare, la formazione di GPT-3 comprendeva una pletora di fonti, tra cui Wikipedia e Reddit. Questo processo può inavvertitamente incorporare segmenti di materiali protetti da copyright, consentendo a questi modelli linguistici espansivi di riassumere in modo conciso le opere protette da copyright con un livello di accuratezza sconcertante.

La questione si amplifica se si considera la natura enigmatica dell’intelligenza artificiale. Il dilemma della “scatola nera”, in cui il funzionamento interno dell’intelligenza artificiale rimane oscuro, esacerba i timori che l’intelligenza artificiale possa diventare un capro espiatorio per sottrarsi alle responsabilità sia nel processo decisionale che nella generazione di contenuti.
La controversia legale nasce anche dalla preoccupazione che se le società di intelligenza artificiale continuano a commercializzare questi sistemi opachi, questi modelli di intelligenza artificiale potrebbero emergere come il mezzo per eccellenza per raggiungere un fine. Il pericolo risiede in un potenziale futuro in cui le decisioni non saranno affidate ai sistemi di intelligenza artificiale per la loro efficacia o accuratezza, ma perché possono aggirare i vincoli legali ed etici che vincolano le azioni umane.
Fonti e metodi dei dati
Nello sviluppo dell’intelligenza artificiale, in particolare con modelli di intelligenza artificiale generativa come quelli al centro di numerose cause legali, il processo di raccolta dei dati è un aspetto cruciale e controverso. I metodi e le fonti da cui questi sistemi di intelligenza artificiale ricavano i propri dati di addestramento hanno implicazioni legali ed etiche significative, soprattutto quando si tratta di materiale protetto da copyright.
I modelli di intelligenza artificiale generativa, come GPT-3 o ChatGPT, vengono addestrati su vasti set di dati raccolti da varie fonti online. Queste fonti spesso includono siti Web pubblici come Wikipedia e Reddit, ma possono anche comprendere archivi più controversi come librerie ombra o altre piattaforme in cui i materiali protetti da copyright sono facilmente disponibili. La formazione prevede non solo la semplice raccolta di dati, ma anche processi complessi per comprendere il contesto, lo stile e le sfumature dei contenuti.

La zona grigia giuridica
L’ambiguità giuridica deriva dal fatto che, sebbene i dati siano accessibili al pubblico, i diritti di utilizzo non sono sempre chiari. Ad esempio, il contenuto di un forum pubblico potrebbe non vietarne esplicitamente l’uso per l’addestramento dell’intelligenza artificiale, ma non può nemmeno concedere l’autorizzazione. Questa zona grigia ha portato a numerose cause legali sul copyright dell’IA, in cui i querelanti sostengono che i loro diritti di proprietà intellettuale sono stati violati dall’inclusione del loro lavoro in set di formazione sull’IA senza consenso o compenso.
In che modo l’intelligenza artificiale sta violando i diritti umani?
Le tecnologie dell’intelligenza artificiale, sebbene rivoluzionarie, sono sempre più esaminate per potenziali violazioni dei diritti umani, una preoccupazione accentuata nel contesto delle cause legali sul copyright dell’intelligenza artificiale.
Le questioni chiave includono:
- La capacità dell’intelligenza artificiale di raccogliere e monitorare ampiamente i dati può violare i diritti individuali alla privacy.
- I sistemi di intelligenza artificiale possono perpetuare i pregiudizi presenti nei loro dati di addestramento, portando a risultati discriminatori in vari settori, sottolineando le preoccupazioni nelle cause legali sul copyright dell’intelligenza artificiale in corso.
- La moderazione dei contenuti guidata dall’intelligenza artificiale può inavvertitamente sopprimere la libertà di parola, una questione che si interseca con i dibattiti sulla proprietà intellettuale nelle cause legali sul copyright dell’intelligenza artificiale.
- In contesti legali, gli strumenti di intelligenza artificiale possono influenzare il processo decisionale, incidendo potenzialmente sull’equità dei processi e dei processi giudiziari.
- L’automazione guidata dall’intelligenza artificiale pone sfide ai diritti dei lavoratori a causa dello spostamento del lavoro e della necessità di adattamento della forza lavoro.
- L’accesso e l’impatto disomogenei dell’intelligenza artificiale possono esacerbare le disuguaglianze esistenti, una preoccupazione che va di pari passo con l’equità dei diritti di accesso e utilizzo al centro delle cause legali sul copyright dell’intelligenza artificiale.
- I sistemi di intelligenza artificiale che manipolano il comportamento degli utenti sollevano interrogativi sull’autonomia e sul consenso individuale.
- Il controllo dell’intelligenza artificiale sulla diffusione delle informazioni può influire sul diritto del pubblico ad accedere a informazioni diversificate e imparziali.
Quali sono le cause legali contro l’IA?
L’arena legale è attualmente piena di cause legali sul copyright dell’IA, con diversi casi che mettono in luce la tensione tra le imprese di intelligenza artificiale generativa e le norme sul copyright. Le parti in causa includono una varietà di aziende intrappolate in queste battaglie legali ad alto rischio.
Google: causa sulla raccolta dati
Google sta affrontando una class action accusando il colosso della tecnologia di uso improprio delle informazioni personali e violazione del copyright. Le accuse descrivono in dettaglio che Google ha raccolto dati, comprese immagini da siti di incontri, playlist di Spotify, video di TikTok e letteratura utilizzata per perfezionare Bard. Lanciata nel luglio 2023, la denuncia suggerisce che Google potrebbe essere responsabile per danni fino a 5 miliardi di dollari. Optando per l’anonimato, i querelanti rappresentano una crescente preoccupazione per la privacy e i diritti di proprietà.
Questa ondata di cause legali sul copyright dell’IA non è senza precedenti. Il caso del 2015 dell’Author’s Guild contro Google ha stabilito un punto di riferimento legale significativo. La Gilda ha sfidato la digitalizzazione di milioni di libri da parte di Google, offrendo frammenti online. La sentenza ha favorito Google, definendo l’utilizzo come trasformativo e non competitivo con il mercato originario dei libri.
OpenAI: problemi di copyright
OpenAI è entrata anche nella mischia legale, con gli autori Paul Tremblay e Mona Awad che accusano di violazione del copyright. Il loro avvocato, Butterick, rappresenta una coorte più ampia di autori le cui opere, sostengono, sono state replicate all’interno dei vasti dati di formazione di OpenAI, che potenzialmente contano oltre 300.000 libri. Presentata nel giugno 2023, la causa richiede una somma non divulgata a titolo di risarcimento danni.

OpenAI e Microsoft: causa al NYT
Inoltre, il New York Times ha lanciato una causa contro OpenAI e Microsoft. Il documento del dicembre 2023 sostiene che OpenAI ha utilizzato milioni di articoli del Times per addestrare i propri modelli linguistici, che ora rivaleggiano con la pubblicazione nel fornire informazioni affidabili. Inoltre, la causa afferma che i modelli di OpenAI non solo riecheggiano lo stile stilistico unico del Times, ma ne recitano anche testualmente il contenuto. Il Times, che rappresenta la prima volta per un importante organo di informazione americano, ha portato avanti le discussioni sulla questione del copyright all’inizio dell’anno, ma senza alcun risultato, culminando in questo contenzioso storico.
Meta e OpenAI: il caso Silverman
L’azione legale della comica Sarah Silverman contro Meta e OpenAI porta alla luce accuse di violazione del copyright, presupponendo che sia ChatGPT che Large Language Model (Llama) di Meta AI siano stati sviluppati utilizzando dati di provenienza illegale che includevano il suo lavoro. La causa punta alle “biblioteche ombra” come Library Genesis, Z-Library e Bibliotek, note per la condivisione di contenuti basata su torrent, che spesso avviene senza autorizzazione legale. Nello specifico, il caso rileva che il lama di Meta è stato informato da un set di dati noto come Pile, compilato da EleutherAI, che presumibilmente contiene dati di Bibliotek. Questa causa è stata avviata nel luglio 2023.

GitHub, Microsoft e OpenAI: la controversia sul copilota
Una causa collettiva sul copyright dell’intelligenza artificiale prende di mira GitHub, Microsoft e OpenAI in merito allo strumento Copilot. Questo servizio basato sull’intelligenza artificiale completa automaticamente gli snippet di codice imparando dall’input di un programmatore. I ricorrenti sostengono che Copilot rigurgita illegalmente il codice dai repository di GitHub, ignorando i requisiti di licenza, inclusa la corretta attribuzione. Oltre alle denunce sul copyright, la causa accusa GitHub anche di cattiva gestione e frode dei dati personali. Archiviato nel novembre 2022, il caso ha visto ripetuti tentativi di archiviazione da parte di Microsoft e GitHub.
Stabilità AI, Midjourney e DeviantArt: la disputa sull’integrità artistica
Gennaio 2023 ha visto a causa contro le società produttrici di immagini AI Stabilità AI, Midjourney e DeviantArt. I querelanti sostengono che queste piattaforme violano i diritti d’autore formandosi e generando derivati dalle opere dei querelanti. Inoltre, c’è controversia sulla capacità di questi strumenti di replicare gli stili di artisti specifici. Il giudice che presiede, William Orrick, ha espresso l’intenzione preliminare di respingere il reclamo.

Stabilità AI: le cause legali di Getty Images
Le doppie cause legali di Getty Images contro Stability AI mettono in luce la copia e l’elaborazione non autorizzate di innumerevoli immagini e metadati associati di cui Getty detiene i diritti nel Regno Unito. Una successiva causa presso il tribunale distrettuale degli Stati Uniti per il distretto del Delaware fa eco a simili violazioni di copyright e marchi. Sottolinea inoltre la preoccupazione per le immagini “bizzarre o grottesche” generate con la filigrana Getty, che potrebbero offuscare la reputazione dello stimato archivio di immagini. Queste mosse legali sono stati fatti nel gennaio 2023.
Domande chiave sollevate da queste cause legali sul copyright dell’IA
L’emergere di cause legali sul copyright dell’IA segnala un cambiamento nel modo in cui vediamo la creatività digitale. Questi confronti legali di alto profilo sollevano diverse domande chiave che potrebbero ridefinire la legge sul copyright in relazione all’intelligenza artificiale generativa:
- Licenza per materiali di formazione sull’intelligenza artificiale: È necessaria una licenza quando i modelli di intelligenza artificiale vengono addestrati su contenuti protetti da copyright? Dato che i sistemi di intelligenza artificiale generativa replicano i materiali di formazione durante la loro fase di apprendimento, il dibattito legale dipende dalla questione se questa replica rientri nel fair use o richieda una licenza formale.
- Violazione del copyright e output dell’intelligenza artificiale: i risultati prodotti dall’IA generativa violano i diritti d’autore dei materiali utilizzati nella formazione? Un aspetto chiave che i tribunali devono determinare è se le somiglianze tra i risultati dell’intelligenza artificiale e i dati di addestramento si basano su contenuti protetti o non protetti. Inoltre, la questione su chi sia responsabile di eventuali violazioni del diritto d’autore commesse da un sistema di intelligenza artificiale deve ancora essere risolta.
- Conformità alle leggi sul copyright digitale: Le tecnologie di intelligenza artificiale generativa violano le leggi che regolano l’alterazione o la rimozione delle informazioni sulla gestione del copyright? Questo problema è particolarmente rilevante nel caso contro Stability AI, in cui le immagini generate dall’intelligenza artificiale includevano false informazioni sulla gestione del copyright, come filigrane riprodotte.
- Diritto di pubblicità e IA: La creazione di opere generate dall’intelligenza artificiale che imitano lo stile di un individuo specifico viola il suo diritto di pubblicità? Questo diritto, che differisce da stato a stato, limita l’uso della somiglianza, del nome, dell’immagine, della voce o della firma di un individuo per scopi commerciali senza consenso.
- Licenze open source e IA: In che modo le licenze open source si intersecano con la formazione e la distribuzione di contenuti generati dall’intelligenza artificiale? Questa è una preoccupazione centrale nella causa GitHub Copilot, in cui i querelanti sostengono che la mancata attribuzione del materiale sorgente e il rilascio di Copilot come open source violano i termini della licenza open source.
Man mano che queste cause legali sul copyright dell’IA progrediscono e iniziano a offrire risposte, le entità coinvolte nello sviluppo e nell’implementazione di strumenti di intelligenza artificiale generativa dovrebbero prestare attenzione alle linee guida emergenti nel nesso tra intelligenza artificiale e proprietà intellettuale. Potrebbe anche essere prudente per queste aziende considerare strategie per mitigare i potenziali rischi in questo terreno legale in evoluzione. Le cause legali sul copyright dell’intelligenza artificiale evidenziano la necessità di politiche chiare sull’utilizzo e sui diritti dei dati.
Credito immagine in primo piano: Igor Omilaev/Unsplash