Marangoni: «Cacciatori di big data ed editori, così con il W3C scriviamo insieme le regole per il web»

Definire le nuove regole tecnologiche che permettano agli editori di tutelare i loro diritti sui materiali pubblicati in Rete e alle aziende hi tech di poter proseguire nello sviluppo delle intelligenze artificiali grazie al text and data mining in un contesto di regole condiviso. È lo scopo del Community group Text and Data Mining Reservation Protocol costituito in seno al W3C, che vede sedere nel ruolo di co-chair, insieme al francese Laurent Le Meur (EDRLab), l’italiana Giulia Marangoni in rappresentanza dell’Associazione Italiana Editori. Il gruppo è sostenuto dalla Federazione degli editori europei (FEP) e dalla associazione francese degli editori (SNE).

Non è la prima volta che AIE svolge un importante ruolo di coordinamento in seno al consorzio che sviluppa gli standard per il web, in cui Cristina Mussinelli è co-chair del W3C Publishing Business e partecipa al Publishing Working Group. Già all’opera, il Community group lavora su un territorio di frontiera, in vista dell’implementazione a giugno nei diversi Paesi europei delle nuove regole definite dalla direttiva europea sul diritto d’autore nel mercato unico digitale, nota più semplicemente come direttiva copyright.

Marangoni, ci spiega che cosa è il text and data mining e quali diritti vengono tutelati in sede europea?

Il text and data mining è l’estrazione e analisi automatizzata di testi e dati in formato digitale tramite algoritmi avente lo scopo di individuare modelli, tendenze, correlazioni, generando nuova conoscenza. Nel caso di contenuti online liberamente accessibili in rete, l’estrazione di testo e dati è realizzata tramite software come i web crawler. La direttiva copyright ha introdotto, all’articolo 4, un’eccezione per cui un’azienda tecnologica può effettuare il text and data mining per scopi commerciali sui contenuti protetti dal diritto d’autore liberamente accessibili in rete (testi, immagini, video) a meno che tale utilizzo non venga espressamente riservato dagli aventi diritto.

Come si esercita questo diritto?

La direttiva precisa che la riserva possa essere effettuata, nel caso di contenuti liberamente disponibili online, attraverso strumenti machine-readable, ossia interpretabili direttamente dai software che esplorano la rete. La direttiva non entra però nel merito dei formati o protocolli da utilizzare a questo scopo. Qui entra in campo il lavoro del Community group: individuare degli standard condivisi da editori e aziende tecnologiche che consentano di comunicare in un formato immediatamente intellegibile alle macchine se i diritti per il text and data mining sono riservati e se sono disponibili delle licenze di utilizzo. Quest’ultimo passaggio – la messa a punto di licenze – è fondamentale per promuovere l’innovazione in questo campo nel rispetto del diritto d’autore.

Perché è così importante la tutela dei diritti d’autore per il text and data mining?

Perché i big data sono una frontiera tecnologica che sappiamo già oggi impatterà pesantemente sul nostro mondo, anche se non sappiamo esattamente in che modo proprio perché l’innovazione prosegue in maniera dirompente. Ad oggi il text and data mining, e quindi i big data, sono utilizzati per istruire le intelligenze artificiali, per individuare trend di mercato, per insegnare alle macchine a esprimersi nel linguaggio naturale. Poiché tutti i produttori di contenuti di Internet contribuiscono a questi processi attraverso i contenuti caricati sul web, è loro diritto avere voce in capitolo e vedere riconosciuto il proprio lavoro creativo.

E perché le aziende tecnologiche dovrebbero avere interesse a partecipare al vostro Community group?

Perché la definizione di una soluzione standard e machine-readable può automatizzare l’acquisizione delle autorizzazioni necessarie per effettuare il text and data mining sui contenuti protetti da copyright, facilitando lo sviluppo di applicazioni innovative. Al contrario, in assenza di soluzioni condivise, i produttori di contenuti potrebbero chiudersi a riccio e negare il consenso per l’utilizzo dei loro contenuti, oppure potrebbe esserci una proliferazione di soluzioni tecniche diverse che renderebbe la raccolta di dati estremamente onerosa e difficile. Noi siamo convinti che il text and data mining sia una risorsa e spingiamo per il suo sviluppo, che però deve essere regolamentato.

Nell’ambito specifico del settore editoriale librario, che peso può avere il text and data mining?

Nel caso dell’editoria libraria, parliamo di frontiere in parte inesplorate. Ma teniamo conto che gli editori caricano online sinossi, copertine, titoli, capitoli omaggio. Sono tutti contenuti che possono essere esplorati attraverso il text and data mining, ad esempio per individuare trend che possono poi essere utilizzati per la produzione di nuovi contenuti. Ha senso, da questo punto di vista, che l’utilizzo sia regolamentato.

L'autore: Samuele Cafasso

Sono nato a Genova e vivo a Milano. Giornalista, già addetto stampa di Marsilio editori e oggi di AIE, ho scritto per Il Secolo XIX, La Stampa, Internazionale, Domani, Pagina99, Wired, Style, Lettera43, The Vision. Ho pubblicato «Figli dell’arcobaleno» per Donzelli editore. Quando non scrivo, leggo. O nuoto.

Guarda tutti gli articoli scritti da Samuele Cafasso

Vai alla categoria Innovazione