Negli Stati Uniti si sta consolidando una nuova linea di contenzioso strategico contro le piattaforme di intelligenza artificiale generativa: non più soltanto azioni promosse da autori, ma iniziative coordinate da editori e associazioni di categoria che mirano a contestare l’intera filiera di acquisizione dei dati utilizzati per l’addestramento dei modelli.
In questo quadro si inserisce la causa promossa contro META da un gruppo di grandi editori – Elsevier, Cengage, Hachette, Macmillan e McGraw Hill – insieme allo scrittore Scott Turow (vicepresidente e autorevole past president della Authors Guild, la più importante associazione autori USA), e con il supporto dell’Association of American Publishers.
Il cuore della contestazione non riguarda soltanto l’utilizzo non autorizzato di opere protette per l’addestramento dei modelli Llama, ma le modalità con cui tali opere sarebbero state reperite. Secondo quanto emerso nel procedimento e in altri contenziosi paralleli negli Stati Uniti, META avrebbe utilizzato dataset provenienti da biblioteche pirata o archivi contenenti copie illecite di libri protetti dal copyright. Ed è proprio questo elemento che potrebbe trasformare il caso da mera controversia sul fair use a un contenzioso potenzialmente molto più problematico per le Big Tech.
Il punto centrale: non solo il training, ma la provenienza dei dati
Nel dibattito statunitense sull’AI generativa, il focus iniziale era concentrato soprattutto sulla domanda se il training dei modelli potesse essere qualificato come fair use ai sensi della Section 107 del Copyright Act. Le piattaforme sostengono che il training abbia «natura trasformativa», che i modelli cioè non sostituiscano direttamente le opere originali, e l’utilizzo delle opere serva a estrarre pattern statistici e non a redistribuire i testi.
Negli ultimi mesi, però, il baricentro del contenzioso si sta spostando. Gli attori stanno insistendo sempre di più su un elemento diverso: la consapevole acquisizione di contenuti da fonti illecite. Se un modello è stato addestrato utilizzando copie provenienti da archivi pirata, il problema non riguarda più soltanto l’interpretazione estensiva del fair use, ma la liceità stessa della fonte.
È una distinzione cruciale. Nel diritto statunitense il fair use può in alcuni casi tollerare utilizzi non autorizzati di opere protette, ma è molto più difficile sostenere la buona fede quando emerge che le opere sono state ottenute tramite canali manifestamente illeciti, trattandosi di pirateria.
Il ruolo delle prove emerse in altri procedimenti
Uno degli aspetti più interessanti del contenzioso riguarda l’utilizzo «trasversale» delle prove. Negli Stati Uniti, le procedure di discovery consentono un accesso molto ampio alla documentazione interna delle società convenute. E-mail interne, chat aziendali, memorandum tecnici e report di acquisizione dei dataset possono diventare elementi probatori centrali.
In diversi procedimenti relativi all’AI generativa sono già emersi elementi secondo cui alcuni dataset utilizzati per l’addestramento dei modelli proverrebbero da shadow libraries e archivi pirata. Dagli elementi finora emersi risulterebbe inoltre che, all’interno delle società coinvolte, si fosse discusso dei rischi giuridici legati all’utilizzo di materiale non autorizzato e di una asserita impossibilità pratica di ottenere licenze su larga scala per l’addestramento dei modelli. Per il settore editoriale europeo, il punto rilevante è capire se tali evidenze possano essere «trasferite» o comunque valorizzate in contenziosi europei.
Perché il quadro giuridico europeo è diverso?
A differenza degli Stati Uniti, l’ordinamento europeo parte da un sistema radicalmente differente. L’addestramento dei sistemi di AI non è valutato attraverso una clausola aperta come il fair use, ma tramite il regime delle eccezioni di text and data mining disciplinate dalla Direttiva DSM, n. 790/2019.
L’articolo 4 della Direttiva consente attività di text and data mining anche per finalità commerciali, ma solo a determinate condizioni. Tra queste, una delle più rilevanti è che l’accesso alle opere debba essere «legittimo». Ed è qui che la questione delle fonti pirata assume un peso potenzialmente decisivo. Se venisse dimostrato che i dataset utilizzati per il training derivano da archivi manifestamente illeciti, la difesa fondata sull’eccezione di text and data mining risulterebbe non ammissibile, in quanto illegittimo, e contrario allo stesso articolo 4.
In altri termini: mentre negli USA il dibattito ruota ancora attorno alla portata del fair use, in Europa la provenienza illecita delle copie incide direttamente sui presupposti di applicazione dell’eccezione.
Le prove americane possono essere usate in Europa?
Dal punto di vista processuale, la questione è delicata. Le dichiarazioni o i documenti emersi nei procedimenti statunitensi non diventano automaticamente verità processuali nei tribunali europei. Tuttavia, tali elementi potrebbero avere diverse funzioni strategiche.
In primis,le evidenze emerse negli USA potrebbero essere utilizzate come base argomentativa per chiedere ordini di esibizione, acquisizione di dataset e documenti, nonché verifiche tecniche sui sistemi di addestramento.
In altre parole, le prove americane potrebbero non essere decisive da sole, ma potrebbero giustificare l’apertura di una fase istruttoria più penetrante.
A tal proposito,in diversi ordinamenti europei si sta discutendo di un alleggerimento dell’onere probatorio a favore dei titolari dei diritti. Il problema è noto: gli aventi diritto non hanno accesso ai dataset, alle pipeline di training né alle informazioni tecniche interne delle piattaforme. Per questo motivo, sia in Francia sia in Italia si stanno moltiplicando le riflessioni sulla possibilità di utilizzare presunzioni semplici, valorizzare elementi indiziari, riequilibrare l’asimmetria informativa tra piattaforme e titolari dei diritti.
In questo scenario, le informazioni emerse nei procedimenti statunitensi potrebbero contribuire a rafforzare la plausibilità degli elementi probatori degli editori europei. Più che come «fatti notori», potrebbero funzionare come tasselli di un quadro presuntivo complessivo.
C’è poi un profilo ulteriore, ed è qui che il caso diventa interessante anche per l’Europa.
Le controversie americane stanno incidendo indirettamente anche sul dibattito relativo all’AI Act e agli obblighi di trasparenza. Le richieste avanzate dagli editori – conoscere i dataset utilizzati, verificare la provenienza delle opere, comprendere le modalità di training – si collegano direttamente alle discussioni europee sulla trasparenza dei modelli di AI generativa. Altresì, la violazione degli obblighi di trasparenza dell’AI Act, come l’omessa indicazione di contenuti generati dall’IA, potrebbe costare fino al 3% del fatturato globale annuo dell’impresa. Nei casi più gravi, le autorità europee possono arrivare a vietare la commercializzazione del sistema di IA nel mercato UE.
Non è casuale che il tema delle fonti dei dataset sia diventato centrale proprio mentre in Europa si discute della sintesi dei contenuti utilizzati per il training, delle misure sul rispetto del diritto d’autore, compreso il rispetto dell’opt-out previsto dalla Direttiva DSM.
Il vero nodo: la filiera dell’approvvigionamento dei contenuti
Il punto che emerge con maggiore chiarezza dal caso META è che il contenzioso sull’AI riguarda solo in parte l’output dei modelli. Il terreno di scontro si sta spostando a monte: come vengono raccolti i dati; da quali fonti; con quali verifiche; con quale grado di consapevolezza.
Per gli editori europei, questo passaggio è particolarmente rilevante. Se il dibattito dovesse concentrarsi sempre più sulla liceità della «supply chain» dei dati, il quadro europeo potrebbe diventare molto meno favorevole alle piattaforme rispetto a quello statunitense. Ed è probabilmente proprio questo il motivo per cui il tema delle shadow libraries sta assumendo un ruolo centrale nelle nuove strategie processuali.
La questione potrebbe avere effetti molto più ampi del singolo contenzioso. La vera partita sull’AI generativa potrebbe quindi non giocarsi più sul fair use, ma sulla liceità delle fonti utilizzate per l’addestramento, terreno sul quale il diritto europeo appare potenzialmente più severo di quello statunitense.