Meta, la società madre di Facebook, è attualmente coinvolta in una causa collettiva che accusa l’azienda di violazione del copyright e concorrenza sleale, tra le altre questioni, riguardanti il modo in cui ha addestrato il suo modello di intelligenza artificiale LLaMA. Secondo un post su X (ex Twitter) da parte di vx-underground, i documenti del tribunale rivelano che l’azienda ha utilizzato torrent pirata per scaricare 81,7 terabyte di dati da biblioteche non autorizzate come Anna’s Archive, Z-Library e LibGen. Queste informazioni sono state poi impiegate per addestrare i modelli di intelligenza artificiale.
Le prove, rappresentate da comunicazioni scritte, mostrano le preoccupazioni dei ricercatori riguardo all’uso di materiali piratati da parte di Meta. Un ricercatore senior di intelligenza artificiale ha dichiarato, già nell’ottobre 2022: “Non penso che dovremmo utilizzare materiale pirata. Ho davvero bisogno di tracciare un confine qui.” Un altro ha aggiunto: “L’uso di materiale pirata dovrebbe superare la nostra soglia etica,” specificando che piattaforme come SciHub, ResearchGate e LibGen distribuiscono contenuti protetti da copyright, violando quindi la legge.
Nel gennaio 2023, Mark Zuckerberg ha partecipato a una riunione in cui ha affermato: “Dobbiamo far avanzare queste questioni… dobbiamo trovare un modo per sbloccare tutto questo.” Tre mesi dopo, un dipendente di Meta ha espresso preoccupazione riguardo all’uso degli indirizzi IP di Meta per accedere a contenuti piratati, affermando che “torrentare da un laptop aziendale non sembra giusto,” seguito da un’emoji che ride.
Oltre a queste comunicazioni, i documenti hanno rivelato che l’azienda ha adottato misure per garantire che la propria infrastruttura non fosse utilizzata per queste operazioni di download e condivisione, in modo che l’attività non potesse essere ricondotta a Meta. I documenti del tribunale indicano che ciò costituisce prova di attività illecite da parte di Meta, che sembra prendere misure deliberate per eludere le leggi sul copyright.
Questa non è la prima volta che un modello di intelligenza artificiale è accusato di rubare informazioni da Internet. A partire da giugno 2023, OpenAI è stata citata in giudizio da scrittori per aver utilizzato i loro libri per addestrare i suoi modelli di linguaggio, con The New York Times che ha seguito l’esempio a dicembre. Anche Nvidia ha affrontato una causa intentata da scrittori per aver utilizzato 196.640 libri per addestrare il suo modello NeMo, che è stato successivamente rimosso. Un ex dipendente di Nvidia ha denunciato la società nell’agosto dello scorso anno, affermando che l’azienda aveva estratto oltre 426 mila ore di video al giorno per l’addestramento dell’IA. Più recentemente, OpenAI sta indagando se DeepSeek abbia ottenuto illegalmente dati da ChatGPT, dimostrando l’ironia della situazione.
La causa contro Meta è ancora in corso, e si attende la decisione del tribunale per stabilire se l’azienda abbia commesso una violazione diretta. Anche se gli autori dovessero vincere, Meta, con il suo enorme potere finanziario, potrebbe decidere di appellarsi, il che comporterebbe un ulteriore attesa per conoscere il giudizio finale del tribunale.