Secondo un'azione legale collettiva ampliata, i dirigenti di NVIDIA hanno autorizzato l'utilizzo di milioni di libri piratati dall'Archivio di Anna per la formazione sull'intelligenza artificiale. La causa, citando documenti interni di NVIDIA, sostiene che la società ha contattato l'Archivio di Anna per ottenere un accesso ad alta velocità ai suoi dati. NVIDIA ha beneficiato del boom dell’intelligenza artificiale, con un aumento dei ricavi dovuto alla forte domanda di chip per l’apprendimento dell’intelligenza artificiale e servizi di data center. NVIDIA sviluppa i propri modelli di intelligenza artificiale, tra cui NeMo, Retro-48B, InstructRetro e Megatron. Questi modelli vengono addestrati utilizzando hardware NVIDIA e librerie di testo di grandi dimensioni, in modo simile alle pratiche adottate da altre aziende tecnologiche. L'azienda ha dovuto affrontare sfide legali da parte dei titolari dei diritti d'autore riguardanti le sue metodologie di formazione. Gli autori hanno citato in giudizio per la prima volta NVIDIA all'inizio del 2024 per violazione del copyright, sostenendo che i modelli di intelligenza artificiale dell'azienda erano stati addestrati sul set di dati Books3, che includeva opere protette da copyright di Bibliotik senza autorizzazione. NVIDIA ha difeso le sue azioni come fair use, affermando che i libri sono correlazioni statistiche con i suoi modelli di intelligenza artificiale. Tuttavia, durante la scoperta sono emerse nuove prove. Venerdì scorso i querelanti hanno presentato una denuncia modificata, ampliando la portata della causa aggiungendo più libri, autori e modelli di intelligenza artificiale. La denuncia modificata include affermazioni più ampie sulla “libreria ombra”. Gli autori, tra cui Abdi Nazemian, ora citano e-mail e documenti interni di NVIDIA, sostenendo che la società ha scaricato volontariamente milioni di libri protetti da copyright. La denuncia afferma che “le pressioni concorrenziali hanno spinto NVIDIA alla pirateria”, coinvolgendo la collaborazione con Anna's Archive. Secondo la denuncia modificata, un membro del team di strategia dei dati di NVIDIA ha contattato Anna's Archive per informazioni sull'acquisizione dei suoi materiali piratati per il pre-addestramento di modelli linguistici di grandi dimensioni, incluso Anna's Archive. La denuncia afferma che Anna's Archive ha addebitato decine di migliaia di dollari per “l'accesso ad alta velocità” alle sue raccolte e NVIDIA ha cercato dettagli su questo accesso. La denuncia sostiene che Anna's Archive ha avvertito NVIDIA che il contenuto della sua libreria è stato acquisito e mantenuto illegalmente. Secondo quanto riferito, Anna's Archive ha chiesto ai dirigenti di NVIDIA il permesso interno per procedere, che è stato concesso entro una settimana. Dopo aver ricevuto l'autorizzazione dalla direzione di NVIDIA, l'Archivio di Anna ha fornito l'accesso ai suoi libri piratati. Anna's Archive ha offerto a NVIDIA l'accesso a circa 500 terabyte di dati, inclusi milioni di libri generalmente disponibili tramite il sistema di prestito digitale di Internet Archive. La denuncia non specifica se NVIDIA ha pagato l'Archivio di Anna. NVIDIA è anche accusata di utilizzare altre fonti piratate, tra cui LibGen, Sci-Hub e Z-Library, oltre al database Books3. Gli autori sostengono che NVIDIA non solo ha scaricato e utilizzato libri piratati per la sua formazione sull'intelligenza artificiale, ma ha anche distribuito script e strumenti che consentono ai clienti aziendali di scaricare “The Pile”, che contiene il set di dati piratati di Books3. Queste accuse introducono nuove accuse di violazione indiretta e contributiva, affermando che NVIDIA ha generato entrate dai clienti facilitando l'accesso a questi set di dati piratati. Gli autori chiedono un risarcimento per i danni per gli autori nominati e potenzialmente per centinaia di altri che si uniscono alla causa collettiva. Questa rivelazione segna la prima divulgazione pubblica della corrispondenza tra un'importante azienda tecnologica statunitense e Anna's Archive. La prima denuncia consolidata e modificata, archiviato presso la corte distrettuale degli Stati Uniti per il distretto settentrionale della California, nomina gli autori Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III e Susan Orlean.





