Openi sta affrontando accuse di addestramento ai suoi modelli AI su materiale protetto da copyright senza permesso, come nuovo carta Sostiene che la società ha utilizzato i libri Paywalled da O’Reilly Media per addestrare il suo modello GPT-4O. Il progetto di divulgazione AI, un no profit co-fondato da Tim O’Reilly e Ilan Strauss, ha pubblicato il documento.
I modelli AI funzionano come motori di previsione, modelli di apprendimento da dati estesi come libri e film per estrapolare dai suggerimenti. Mentre alcuni laboratori di intelligenza artificiale utilizzano i dati generati dall’IA quando le fonti del mondo reale diminuiscono, la formazione su dati puramente sintetici comporta rischi, come il impatto sulle prestazioni di un modello.
La metodologia del documento, Decopdetermina se un modello distingue tra testi di autori umani e Parafrasi generate ai. Ciò suggerisce se il modello ha una conoscenza preliminare dai suoi dati di formazione. I ricercatori hanno sondato GPT-4O, GPT-3.5 Turbo e altri modelli OpenAI, utilizzando 13.962 estratti da 34 libri O’Reilly per stimare la probabilità di inclusione nei set di dati di addestramento.
I risultati hanno indicato che GPT-4O ha riconosciuto significativamente più contenuti di libri di O’Reilly a pagamento rispetto ai modelli più vecchi come GPT-3.5 Turbo. Secondo la carta, GPT-4O Probabilmente riconosce molti libri O’Reilly non pubblici pubblicati prima della sua data di taglio della formazione. O’Reilly non ha un accordo di licenza con Openi, secondo il documento.
I co-autori riconoscono che il metodo non è infallibile e OpenAI potrebbe aver raccolto estratti dagli input Chatgpt degli utenti. Un altro avvertimento è che i modelli più recenti OpenAI, tra cui GPT-4.5, non sono stati valutati.
Openi, sostenendo restrizioni di copyright più libere, ha cercato dati di addestramento di qualità superiore, assumendo giornalisti per perfezionare i risultati del modello. La società ha anche accordi di licenza con gli editori di notizie e offre meccanismi di rinuncia ai proprietari di copyright. Openai non ha commentato il giornale.