Secondo l’Università di Harvard, in collaborazione con Google, rilascerà un set di dati di circa un milione di libri di pubblico dominio da utilizzare nell’addestramento dei modelli di intelligenza artificiale. CABLATO. Questa iniziativa, nota come Institutional Data Initiative, ha ottenuto finanziamenti sia da Microsoft che da OpenAI. Il set di dati comprende opere che non sono più protette dal diritto d’autore, ricavate dagli estesi sforzi di scansione dei libri di Google.
Harvard e Google forniscono un milione di libri per la formazione sull’intelligenza artificiale
L’annuncio è arrivato il 12 dicembre 2024, con il set di dati, che comprende una vasta gamma di generi, lingue e autori, tra cui figure importanti come Dickens, Dante e Shakespeare. Il direttore esecutivo dell’iniziativa di Harvard, Greg Leppert, ha sottolineato che il set di dati mira a “livellare il campo di gioco”, consentendo l’accesso ai laboratori di ricerca e alle startup di intelligenza artificiale per migliorare i loro sforzi di sviluppo del modello linguistico. Il set di dati è destinato a chiunque desideri addestrare modelli linguistici di grandi dimensioni (LLM), anche se la data e il metodo di rilascio specifici devono ancora essere divulgati.
Poiché le tecnologie di intelligenza artificiale fanno sempre più affidamento su grandi quantità di dati di testo, questo set di dati costituisce una risorsa cruciale. I modelli fondamentali come ChatGPT traggono notevoli vantaggi da dati di addestramento di alta qualità. Tuttavia, la necessità di dati ha causato sfide ad aziende come OpenAI, che devono affrontare il controllo legale sull’uso non autorizzato di materiali protetti da copyright. Le cause legali dei principali editori, tra cui il Wall Street Journal e il New York Times, evidenziano le tensioni in corso riguardo all’uso dei contenuti e alla violazione del copyright nella formazione sull’intelligenza artificiale.
Anche se il prossimo set di dati sarà vantaggioso, non è ancora chiaro se un milione di libri sarà sufficiente per soddisfare le richieste di formazione sui modelli di intelligenza artificiale, soprattutto perché i riferimenti contemporanei e lo slang aggiornato non sono trattati in questi testi storici. Le aziende di intelligenza artificiale continueranno a cercare ulteriori fonti di dati, in particolare informazioni esclusive o aggiornate, per distinguere i loro modelli dalla concorrenza.
- L’Institutional Data Initiative di Harvard mira a fornire dati accessibili per lo sviluppo dell’intelligenza artificiale.
- Il finanziamento di Microsoft e OpenAI è alla base del progetto.
- Il set di dati include classici della letteratura e testi meno familiari.
- I modelli di intelligenza artificiale richiedono dati estesi; le controversie attuali riguardano i diritti di utilizzo dei dati.
Gli sviluppatori nel settore dell’intelligenza artificiale non si limitano ai soli testi storici. Diverse piattaforme, tra cui Reddit e X, hanno iniziato a limitare l’accesso ai propri dati poiché ne riconoscono il crescente valore. Reddit ha stipulato accordi di licenza con aziende come Google, mentre X mantiene accordi esclusivi sui contenuti per l’utilizzo dei dati in tempo reale. Questo cambiamento nell’accessibilità dei contenuti riflette il panorama competitivo in cui le aziende di intelligenza artificiale lottano per acquisire dati di formazione adeguati e pertinenti senza affrontare ripercussioni legali.
L’attuazione dell’Institutional Data Initiative è un passo avanti verso l’allentamento di queste pressioni fornendo un pool di testi storici giuridicamente sicuro, consentendo una formazione responsabile dei modelli. Tuttavia, saranno ancora necessarie strategie globali per garantire che i modelli di intelligenza artificiale siano competitivi e in grado di comprendere il linguaggio e i riferimenti contemporanei.
Quanto efficacemente questa risorsa soddisferà la continua domanda di dati completi e diversificati rimane una questione mentre continuano le indagini sull’utilizzo dei dati.
Credito immagine in primo piano: Banchi di argilla/Unsplash