Il tuo browser non supporta JavaScript!
Vai al contenuto della pagina
Normativa

Libri protetti da copyright usati per alimentare l'intelligenza artificiale: in arrivo una causa per ChatGPT?

di Elisa Buletti notizia del 25 maggio 2023

Potrebbe aprirsi una causa contro ChatGPT, il chatbot basato sull’intelligenza artificiale e sull’apprendimento automatico sviluppato da OpenAI. Stando a quanto scrive Actualitté, infatti, pare che le versioni del software siano state alimentate con libri protetti da copyright, al fine di perfezionare le capacità dell’intelligenza artificiale.

Le IA di ChatGPT e del suo successore GPT-4 si sviluppano sulla base di enormi quantità di dati, ma non è chiaro quali testi siano stati utilizzati nello specifico. Alcuni ricercatori dell’Università di Berkeley, in California, sostengono che sia stato memorizzato un numero elevato di modelli linguistici protetti da copyright.

Il documento prodotto dai ricercatori, dal titolo Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4, indaga i materiali utilizzati dalle IA, che si basano sulla «frequenza con cui passaggi di determinati libri appaiono sul web»: ciò significa che più un titolo viene citato sul web, più viene utilizzato come riferimento.

I test condotti esaminano il numero di occorrenze dei termini, per identificare i passaggi utilizzati dai computer. I risultati mostrano che sono 572 i libri chiaramente identificati. Tra le prime fonti, compaiono i romanzi fantasy e di fantascienza come i volumi della serie Harry Potter, la saga di Hunger Games, Il Trono di Spade, oltre ad altre opere di pubblico dominio come per esempio 1984 di George Orwell. L'elenco completo dei titoli trovati è disponibile qui: più della metà sono stati pubblicati dopo il 1960. I laboratori di sviluppo dell'IA non intendono divulgare le fonti utilizzate per arricchire i software, ma al momento il rischio di incappare in un’azione legale è dietro l’angolo.

Nel 2015, un problema analogo si era già posto con Google Books, lo strumento sviluppato da Google basato sulla digitalizzazione di milioni di libri. Tra i vari documenti scansionati e riprodotti, il numero di libri soggetti a copyright era degno di una causa: a intentarla Amicus Curiae, una coalizione di autori, editori e organizzazioni sul diritto d’autore. Dal momento che Google Books non consente l’accesso al testo per intero se l’opera non è di pubblico dominio ma solo la consultazione di alcune parti, la Corte Suprema degli Stati Uniti ha chiuso il caso, scagionando l’azienda.

L'autore: Elisa Buletti

Laureata in Lettere all’Università degli Studi di Verona, ho conseguito il master Booktelling, comunicare e vendere contenuti editoriali dell’Università Cattolica di Milano che mi ha permesso di coniugare il mio interesse per i libri e l’intero settore editoriale con il mondo della comunicazione digital e social.

Guarda tutti gli articoli scritti da Elisa Buletti

Inserire il codice per il download.

Inserire il codice per attivare il servizio.