Bluesky è alle prese con un significativo problema di privacy dopo un milione di post pubblici sono stati raschiati dalla sua piattaforma per la formazione sull’intelligenza artificiale, secondo a 404Media rapporto. Il set di dati, compilato da bibliotecario di apprendimento automatico Daniel van Strien della società di intelligenza artificiale Hugging Face, era destinato all’uso nella ricerca relativa all’elaborazione del linguaggio naturale e all’analisi dei social media. Sebbene i rappresentanti di Bluesky affermino che la piattaforma non addestrerà mai l’intelligenza artificiale generativa sui dati degli utenti, la natura aperta della sua API la rende vulnerabile agli scraper esterni.
Bluesky deve affrontare problemi di privacy per i post degli utenti cancellati
Il set di dati in questione è stato ottenuto tramite Bluesky’s API Firehoseche fornisce un flusso aggregato di aggiornamenti di dati pubblici, inclusi post, Mi piace e follower. Van Strien aveva l’obiettivo di utilizzare questo set di dati per portare avanti la ricerca sull’apprendimento automatico. Tuttavia, non includeva solo il testo dei post, ma anche gli identificatori decentralizzati (DID) e i metadati degli utenti. Dopo che i resoconti dei media hanno evidenziato il problema, il set di dati è stato rapidamente rimosso da Hugging Face a causa del contraccolpo generato in merito alla privacy degli utenti e alla mancanza di consenso.
Gli utenti di Bluesky non hanno fornito il permesso esplicito affinché i loro post venissero utilizzati in questo modo, sebbene le politiche di Bluesky non proibiscano categoricamente tali azioni. Il nocciolo della controversia risiede nella struttura aperta dell’API di Bluesky, che consente agli sviluppatori di terze parti di accedere liberamente ai suoi dati pubblici. Secondo una dichiarazione di un rappresentante di Bluesky, “vorremmo trovare un modo per consentire agli utenti di Bluesky di comunicare a organizzazioni/sviluppatori esterni se acconsentono a ciò”, indicando uno sforzo per migliorare il controllo degli utenti sulla condivisione dei dati in futuro.
Bluesky guadagna 1,25 milioni di utenti in aumento dopo le elezioni
In seguito alla rimozione del set di dati, van Strien ha riconosciuto la violazione della trasparenza e del consenso nel suo approccio alla raccolta dei dati. “Mi scuso per questo errore”, ha dichiarato in un post successivo su Bluesky. Questo incidente serve come stimolo agli utenti per comprendere meglio che qualsiasi contenuto condiviso pubblicamente sulla piattaforma è accessibile a entità esterne. Mentre la piattaforma continua a crescere, superando di recente i 20 milioni di utenti, Bluesky dovrà probabilmente affrontare un controllo crescente riguardo alle sue misure di protezione dei dati e alla privacy degli utenti.
Bluesky sta attualmente discutendo sui meccanismi che potrebbero consentire agli utenti di esprimere le proprie preferenze di consenso a terzi. Tuttavia, l’attuazione resta una sfida; come notato dalla piattaforma, spetterà infine agli sviluppatori esterni aderire a queste preferenze. I rappresentanti di Bluesky hanno inoltre comunicato che, pur mirando al dialogo con ingegneri e team legali, non sono disponibili soluzioni immediate.
Credito immagine in primo piano: Cielo blu