dariodeleonardis.me

Giornalismo contro AI: La battaglia di un no-profit che sfida il gigante OpenAI

In questo articolo

 


 

Guarda, la situazione è questa: un anno fa, il Center for Investigative Reporting (CIR), che pubblica testate come Mother Jones e Reveal, ha deciso di fare qualcosa che solo un’altra organizzazione no-profit di news negli Stati Uniti aveva osato fare. Ha fatto causa a OpenAI e Microsoft. L’accusa? Aver usato i loro articoli, protetti da copyright, per addestrare le intelligenze artificiali generative, incluso il famosissimo ChatGPT.

Oggi, quella causa è diventata parte di un processo colossale, uno dei più osservati nel mondo dell’editoria. Insieme al CIR, ci sono nomi pesantissimi: il New York Times, una manciata di quotidiani del fondo speculativo Alden Global Capital, e persino una class action di scrittori di primo piano. Ma, a parte The Intercept, anche lui della partita, il CIR è rimasto l’unico baluardo del giornalismo no-profit a portare OpenAI in tribunale.

“Volevamo essere in prima linea in questa battaglia legale anche perché tanti altri non possono permetterselo,” mi ha detto Monika Bauerlein, la CEO del Center for Investigative Reporting. E ha ragione. Molte no-profit, sempre a corto di soldi, non hanno un ufficio legale interno né le risorse per affrontare anni di battaglie in tribunale. Il CIR, invece, aveva entrambi. E, soprattutto, la volontà di difendere il valore del proprio giornalismo originale. “Non possiamo permettere che il giornalismo diventi, ancora una volta, una risorsa gratuita da cui le aziende tecnologiche estraggono profitti incredibili, per poi aspettare qualche elemosina a loro discrezione.”

Molti editori commerciali si sono concentrati su come prodotti come ChatGPT stiano prosciugando il traffico dai motori di ricerca e distruggendo i modelli pubblicitari. Bauerlein, però, inquadra la crisi per le redazioni no-profit da una prospettiva un po’ diversa, dato che molte non dipendono così tanto dalla pubblicità tradizionale. “Non è tanto una questione di traffico puro, quanto di relazione,” spiega. “La relazione tra un pubblico e un giornalista o una redazione si spezza quando questi modelli usano i contenuti senza permesso o senza citare la fonte.”

La causa del CIR è ora in fase di “discovery”, quella in cui OpenAI e gli editori raccolgono e si scambiano informazioni da usare in processo. Ci si aspetta che il tribunale del Distretto Sud di New York (SDNY) annunci presto una data per il processo. E mentre si avvicina l’anniversario della presentazione della causa, ho parlato con il CIR e il suo team legale per capire come hanno affrontato questo primo anno e perché così poche testate no-profit li abbiano seguiti.

Il peso della “scoperta” e le tattiche legali

Le rivendicazioni del CIR non sono poi così diverse da altre cause simili che si stanno facendo strada nei tribunali statunitensi. La loro strategia legale ha due punte. Come editore della rivista Mother Jones, il CIR è titolare di registrazioni di copyright, il che significa che ha registrato in blocco gli articoli stampati presso l’U.S. Copyright Office. Stanno usando queste registrazioni per denunciare una violazione tradizionale del copyright da parte di OpenAI, una strada legale che la maggior parte degli editori puramente digitali non può percorrere.

Per i suoi contenuti digitali, come gli articoli su Revealnews.org e Motherjones.com, il CIR sostiene che OpenAI abbia violato il Digital Millennium Copyright Act (DMCA). Questa accusa si basa sul fatto che OpenAI avrebbe rimosso le informazioni relative al copyright – come nomi degli autori, titoli e termini di utilizzo – quando ha dato in pasto gli articoli del CIR ai suoi modelli di addestramento. Sebbene la via del DMCA sia la più praticabile per gli editori digitali, ha subito qualche battuta d’arresto di recente, dopo che accuse simili contro OpenAI sono state respinte o ridimensionate.

Nella sua denuncia originale del giugno 2024, il CIR citava come prova il dataset interno di OpenAI, WebText. Questo dataset è stato creato raccogliendo link in uscita da Reddit, link che sono poi stati usati per addestrare GPT-2, una versione precedente del modello che oggi alimenta ChatGPT. La stessa OpenAI aveva pubblicato una lista dei 1.000 domini web più usati in WebText nel 2019. Mother Jones era al 267° posto, con 16.793 URL distinti dal suo sito.

Nel suo stesso documento metodologico, OpenAI spiegava di aver usato algoritmi chiamati “Dragnet” e “Newspaper” per costruire WebText, entrambi progettati per estrarre il contenuto principale di una pagina web, tralasciando piè di pagina e avvisi di copyright.

A rappresentare il CIR c’è Loevy & Loevy, uno studio legale di Chicago specializzato in diritti civili, con una lunga storia di cause per ottenere documenti pubblici per conto di giornalisti. Matt Topic, l’avvocato principale, si è specializzato nel rappresentare testate indipendenti contro i colossi dell’AI. Rappresenta anche The Intercept e altri siti di news progressiste come Raw Story e AlterNet.

Una delle ragioni principali per cui il CIR ha potuto permettersi questa causa è che Loevy & Loevy li rappresenta su base “contingency”, cioè verranno pagati solo se vinceranno o raggiungeranno un accordo. Nonostante questo, la causa è stata un enorme dispendio di risorse.

“I costi per noi sono principalmente in termini di tempo,” ha detto Bauerlein, spiegando che l’avvocato interno del CIR ha lavorato senza sosta, con il supporto periodico di altri dipendenti. Da quando il caso è entrato in fase di “discovery”, il carico di lavoro è solo aumentato. OpenAI ha richiesto documenti di policy interna, righe di codice del sito web e registri di impiego che risalgono ad anni fa, oltre a deposizioni con dirigenti come la stessa Bauerlein. “La mia esperienza è che i litiganti con tasche profonde cercheranno di sfinirti in ogni fase del processo,” ha aggiunto.

Durante la “discovery”, il CIR ha dovuto nominare dei “custodi” – dipendenti designati che devono conservare file elettronici o cartacei contenenti potenziali prove. In percentuale sul totale dello staff, il CIR ha già cinque volte più custodi di OpenAI (il 2,5% dei dipendenti contro lo 0,5%), ma in tribunale OpenAI ha chiesto che ne venissero nominati ancora di più.

“Poche redazioni no-profit hanno fatto causa alle aziende di AI perché, delle centinaia che ci sono nel paese, solo una manciata ha un avvocato interno,” ha detto Victoria Baranetsky, consigliere generale del CIR. “La maggior parte degli avvocati delle no-profit ha già il piatto pieno con tutte le questioni legali che una redazione deve affrontare di questi tempi.” Solo sotto la nuova amministrazione Trump, gli editori di notizie hanno visto un aumento delle cause per diffamazione e un incremento delle difficoltà con il FOIA (Freedom of Information Act).

La “discovery”, per queste ragioni, è uno dei maggiori deterrenti per le no-profit. “Rappresento molte redazioni, ma per le entità no-profit e indipendenti più piccole, immagino ci sia un senso di intimidazione riguardo a ciò che il processo di ‘discovery’ comporta,” ha detto Topic.

In generale, la parte più contenziosa della “discovery” nel caso CIR finora ha riguardato la resistenza di OpenAI a salvare i dati degli utenti di ChatGPT. Il mese scorso, il giudice Sidney Stein ha ordinato a OpenAI di conservare le conversazioni degli utenti in modo che gli output di ChatGPT possano essere completamente verificati. OpenAI si è opposta vigorosamente, presentando molteplici appelli e portando le sue lamentele fuori dall’aula. In un post sul blog del 5 giugno, l’azienda ha criticato pubblicamente la richiesta, scrivendo che “è in conflitto fondamentale con gli impegni di privacy che abbiamo preso con i nostri utenti.” Il CEO di OpenAI, Sam Altman, ha rincarato la dose con un post su X.

I dati delle aziende che pagano per ChatGPT Enterprise non sono soggetti a questo ordine del tribunale, e qualsiasi dato raccolto sarebbe in una “conservazione legale” accessibile solo a un piccolo team controllato. Le discussioni orali sulla questione sono previste per il 26 giugno.

“Altman crede che dovrebbe esserci un privilegio simile a quello medico-paziente o avvocato-cliente per gli esseri umani e i robot. La legge non riconosce un tale privilegio,” ha detto Topic.

“Aspettare e vedere”: la strategia degli altri

Le risorse legali da sole non possono spiegare perché così poche testate no-profit abbiano scelto di fare causa alle aziende di AI. Topic dice che le piccole testate no-profit stanno probabilmente adottando un approccio di “attesa e osservazione” – prendendo tempo nella speranza che le prime sentenze dei tribunali federali diano qualche indicazione su come tirerà il vento per i detentori di copyright.

“Arriverà un momento, in un futuro non troppo lontano, in cui potrebbero esserci problemi di prescrizione,” ha detto Topic. “Quel momento potrebbe arrivare prima che le attuali cause siano state risolte – quindi ‘aspettare e vedere’ potrebbe non funzionare all’infinito.” In generale, la prescrizione per una richiesta di violazione secondo la legge sul copyright degli Stati Uniti è di tre anni, ma non è ancora chiaro come restrizioni come questa influenzeranno le future cause legate all’AI.

Nel frattempo, molti dei colleghi del CIR nel giornalismo no-profit hanno optato per partnership dirette e indirette con OpenAI e altre grandi aziende di AI. L’Associated Press — una no-profit, anche se molto più grande di quelle coinvolte nel caso SDNY — è stata la prima organizzazione di notizie a firmare un accordo di licenza con OpenAI, nell’estate del 2023. A gennaio, è diventata anche la prima a firmare un accordo con Google per il suo chatbot Gemini.

La scorsa estate, il Texas Tribune è diventata la prima no-profit di notizie locali a firmare un accordo di licenza con una grande azienda di AI, unendosi al programma di condivisione dei ricavi di Perplexity.

Molte no-profit di notizie ricevono finanziamenti indiretti da OpenAI attraverso programmi di innovazione sull’AI. L’American Journalism Project’s Product and AI Studio è stato lanciato con una donazione di 5 milioni di dollari da OpenAI e conta diverse no-profit tra i suoi attuali partecipanti, tra cui The Marshall Project, The City, Chalkbeat e Sahan Journal. Il collaborativo su AI e notizie locali del Lenfest Institute, nel frattempo, ha 2,5 milioni di dollari di finanziamenti da OpenAI e Microsoft. I partecipanti attuali includono grandi quotidiani no-profit di città come The Baltimore Banner, The Philadelphia Inquirer e The Chicago Sun-Times, così come l’outlet investigativo ProPublica.

“Abbiamo già visto questo film,” ha detto Bauerlein, ricordando l’emergere dei motori di ricerca nei primi anni 2000 (principalmente Google) e, più recentemente, delle piattaforme di social media (principalmente Facebook). “Storicamente, quando le aziende tecnologiche sono sotto pressione, distribuiscono briciole dal tavolo sotto forma di beneficenza sia per migliorare la loro immagine pubblica sia per mettere in difficoltà le organizzazioni particolarmente no-profit.” Queste donazioni relativamente piccole mettono le redazioni a corto di risorse in una posizione difficile. “[Le no-profit] hanno l’opportunità di ottenere un po’ di supporto subito o scommettere su una strategia legale che sarà costosa e richiederà tempo,” ha detto.

Tuttavia, il CIR prenderebbe in considerazione un proprio accordo con un’azienda di AI se i termini fossero giusti e l’azienda fosse “in sintonia con la nostra missione,” ha detto Bauerlein. (Anche se nessuna azienda di AI ha contattato il CIR da quando la no-profit ha fatto causa a OpenAI.)

Per ora, Bauerlein ha detto che i danni posti al giornalismo no-profit dall’IA generativa sono troppo grandi, e troppo immediati, per aspettare un invito. “È fondamentale non lasciare che il giornalismo venga masticato e sputato fuori dalle tecnologie ancora una volta,” ha detto. “Questo non è qualcosa che ha un orizzonte temporale di dieci o anche cinque anni. Questo deve essere affrontato ora.”