Una proposta di azione legale collettiva intentata dall’autrice dell’Oregon Elizabeth Lyon accusa Adobe di addestrare il suo modello di intelligenza artificiale SlimLM su libri piratati, comprese le sue guide, attraverso il set di dati SlimPajama-627B derivato dalla raccolta RedPajama contenente Books3. Negli ultimi anni Adobe ha perseguito un ampio sviluppo dell’intelligenza artificiale. L’azienda ha lanciato numerosi servizi di intelligenza artificiale a partire dal 2023, con Firefly che funge da suite di generazione multimediale basata sull’intelligenza artificiale progettata per creare immagini, video e altri contenuti multimediali da istruzioni e input di testo.
SlimLM rappresenta una serie di piccoli modelli linguistici che Adobe ha ottimizzato specificatamente per attività di assistenza documentale su dispositivi mobili. Questi modelli abilitano funzioni come il riepilogo di documenti, l’estrazione di informazioni chiave e la fornitura di aiuto contestuale direttamente all’interno delle applicazioni mobili. Adobe stati che ha pre-addestrato SlimLM utilizzando il set di dati SlimPajama-627B. Cerebri rilasciato questo set di dati nel giugno 2023 come risorsa deduplicata, multi-corpora e open source destinata alla formazione di modelli linguistici di grandi dimensioni. Il set di dati aggrega varie origini di testo dopo aver rimosso i duplicati per migliorare l’efficienza dell’addestramento e le prestazioni del modello. Elizabeth Lyon, specializzata in guide per la scrittura di saggistica, ha avviato la causa sostenendo che Adobe ha incorporato versioni piratate di numerosi libri, comprese le sue opere, nel processo di formazione per SlimLM. L’azione legale cerca lo status di class action per rappresentare altri autori interessati. La causa descrive in dettaglio come il set di dati SlimPajama abbia avuto origine dal set di dati RedPajama, che include la raccolta Books3 che comprende 191.000 libri. Prima la Reuters riportato sul deposito. La denuncia afferma testualmente: “Il set di dati SlimPajama è stato creato copiando e manipolando il set di dati RedPajama (inclusa la copia di Books3).” E continua: “Pertanto, poiché è una copia derivata del set di dati RedPajama, SlimPajama contiene il set di dati Books3, comprese le opere protette da copyright del querelante e dei membri della classe.” Lyon sostiene che i suoi materiali protetti da copyright sono apparsi in questi dati pre-formazione senza il suo consenso o compenso. Books3 è emerso ripetutamente in controversie legali nel settore dell’intelligenza artificiale, poiché gli sviluppatori lo hanno utilizzato per addestrare sistemi di intelligenza artificiale generativa. La raccolta contiene testi digitalizzati di vari generi e autori, rendendola un corpus formativo completo ma controverso. Anche RedPajama, che incorpora Books3, è stato menzionato in numerosi casi giudiziari.





