OpenAI, l’influente laboratorio di ricerca sull’intelligenza artificiale dietro strumenti innovativi come ChatGPT e Sora, si è trovato nei guai a seguito di una recente intervista con il suo Chief Technology Officer, Mira Murati.
L’intervistacondotto dalla giornalista del Wall Street Journal Joanna Stern, incentrato sull’ultimo sistema di generazione di immagini, o meglio video, di OpenAI, Sora.
Le preoccupazioni riguardano il potenziale uso improprio del lavoro protetto da copyright per addestrare modelli di intelligenza artificiale e altri mancanza di trasparenza da OpenAI per quanto riguarda le sue pratiche sui dati.
I dati di allenamento di Sora sono in discussione
Al centro della controversia c’è la questione dei dati di addestramento, gli enormi set di dati utilizzati per addestrare i modelli di intelligenza artificiale.
Alla domanda sulle fonti dei dati utilizzati per Sora, Murati ha fornito la risposta standard: il modello è stato addestrato su “dati disponibili al pubblico e concessi in licenza“.
Tuttavia, ulteriori indagini hanno rivelato esitazione e incertezza da parte di Murati sui dettagli specifici di questo set di dati.
Questa risposta ha ha sollevato bandiere rosse tra artisti, fotografi ed esperti di proprietà intellettuale. I sistemi di generazione di immagini basati sull’intelligenza artificiale dipendono fortemente dall’acquisizione di grandi quantità di immagini, molte delle quali possono essere protette da copyright. La mancanza di chiarezza sui dati di addestramento di Sora solleva dubbi sul fatto che OpenAI abbia adeguatamente salvaguardato i diritti dei creatori di contenuti.

L’utilizzo di Shutterstock è stato ammesso in seguito
Ad aggiungere benzina sul fuoco è stato il rifiuto iniziale di Murati di chiedere se le immagini di Shutterstock fossero una componente del set di dati di addestramento di Sora. Solo dopo l’intervista, in una nota aggiunta dal Wall Street Journal, Murati ha confermato l’utilizzo della libreria di immagini di Shutterstock.
Questa conferma contraddice la posizione pubblica di OpenAI di “dati pubblicamente disponibili e concessi in licenza” e suggerisce un tentativo di nascondere pratiche di approvvigionamento potenzialmente problematiche.
Shutterstock e OpenAI hanno formato una partnership che garantisce a OpenAI i diritti per utilizzare la libreria di immagini di Shutterstock nell’addestramento di modelli di generazione di immagini come DALL-E 2 e potenzialmente Sora.
In cambio, i contributori di Shutterstock (i fotografi e gli artisti le cui immagini sono sulla piattaforma) ricevono un compenso quando il loro lavoro viene utilizzato nello sviluppo di questi modelli di intelligenza artificiale.
Si scatena un incubo di pubbliche relazioni
Si può dire con certezza che la maggior parte degli addetti alle pubbliche relazioni non considererebbe questa intervista un capolavoro di pubbliche relazioni.
La mancanza di chiarezza di Murati arriva in un momento delicato per OpenAI, già alle prese con importanti cause legali sul copyrighttra cui uno significativo depositato dal New York Times.
Il pubblico sta esaminando attentamente pratiche come il presunto utilizzo segreto da parte di OpenAI dei video di YouTube per la formazione dei modelli precedentemente riportato da The Information. Con stakeholder che vanno dagli artisti ai politici che chiedono responsabilità, l’elusione di Murati non fa altro che alimentare il fuoco.
L’approccio opaco di OpenAI si sta rivelando controproducente, trasformando l’intervista di Sora in un disastro di pubbliche relazioni.
Mira Murati, CTO di OpenAI, afferma che Sora è stato formato sui dati disponibili al pubblico e concessi in licenza pic.twitter.com/rf7pZ0ZX00
— Zarathustra (@zarnick) 13 marzo 2024
Non per niente la trasparenza è l’argomento più discusso
Questo incidente sottolinea una verità fondamentale: svelare la verità è fondamentale nel mondo dell’intelligenza artificiale. Le risposte incerte di OpenAI hanno gravemente minato la fiducia del pubblico e intensificato le domande sulle sue pratiche etiche. La polemica Sora evidenzia il coro crescente chiedendo maggiore responsabilità nel settore dell’intelligenza artificiale.
La riluttanza di Murati a rivelare le specifiche dei dati di addestramento di Sora cresce sfiducia e costituisce un pericoloso precedente.
Senza la chiarezza che gli artisti, i creatori e il pubblico richiedono, i dibattiti etici e il potenziale per azioni legali non potranno che intensificarsi.
Non ci sono angeli in questa terra
Sebbene gran parte dell’attuale esame ricada direttamente su OpenAI, è fondamentale ricordarlo non sono l’unico giocatore nel gioco.
Ricerca sull’intelligenza artificiale di Facebook Modello LLaMA E Gemelli di Google hanno anche dovuto affrontare accuse di fonti di dati di formazione problematiche.

Ciò non è sorprendente, in quanto Rapporti di Business Insider che Meta ha già ammesso di utilizzare i post di Instagram e Facebook per addestrare i suoi modelli di intelligenza artificiale. Inoltre, Il controllo di Google su vaste aree di Internet offre loro un accesso senza precedenti a potenziali dati di formazione, sollevando preoccupazioni etiche simili sul consenso e sul copyright.
La situazione con Sora di OpenAI è solo un pezzo di un puzzle più grande. L’intero campo dello sviluppo dell’IA si trova ad affrontare un esame accurato delle pratiche relative ai dati e delle potenziali implicazioni etiche.
Credito immagine in primo piano: Freepik.