E-book. Automatizzare le descrizioni alternative delle immagini con l’AI

Tra le specifiche richieste per la creazione di contenuti digitali accessibili (WCAG e ePub Accessibility Guidelines), la descrizione alternativa delle immagini è probabilmente la più difficile per gli editori in quanto richiede un apposito lavoro redazionale. Molti produttori di contenuti, infatti, non possiedono ancora le conoscenze e il tempo adeguati per produrle, limitando così il livello di accessibilità del prodotto, specialmente quando si tratta di creare la versione accessibile dei titoli di backlist, inizialmente non pensati per essere accessibili.

In Fondazione Lia lavoriamo a fianco degli editori soci per supportarli nella produzione di e-book che siano nativamente accessibili. Il cuore della nostra attività risiede appunto nella certificazione dell'accessibilità degli e-book prodotti e messi in commercio dagli editori, ma ci occupiamo anche di fare consulenza e formazione a editori, fornitori di contenuti e aziende interessate ad adottare una strategia editoriale inclusiva.

Proprio mentre collaboravamo con un editore di scolastica per il progetto pilota di un libro di testo – un libro che per sua natura pone diverse sfide a partire dalla complessità del layout –, abbiamo iniziato a chiederci come semplificare (e possibilmente automatizzare) il processo di descrizione delle immagini. Fondazione Lia si occupa anche di ricerca e sviluppo, attività spesso portate avanti con la collaborazione di Università italiane o centri di ricerca. E proprio in occasione del Digital Publishing Summit di quest’anno a Parigi, abbiamo presentato un progetto pilota sulla possibilità di generare automaticamente le descrizioni alternative delle immagini attraverso l’utilizzo dell’intelligenza artificiale.

Come Chief Accessibility Officer di Lia, ingegnere informatico e, sicuramente, appassionato di tecnologia, sono da sempre affascinato dall'approccio all'apprendimento automatico e all'intelligenza artificiale che caratterizza sempre più la ricerca scientifica. Così mi sono chiesto come usare l'AI per automatizzare la descrizione alternativa delle immagini anche nel mondo dell'editoria, dal momento che i grandi operatori tecnologici (Microsoft, Google, Amazon, Facebook) offrono già servizi basati sulle reti neurali artificiali e sul machine learning per aggiungere una descrizione automatica delle fotografie pubblicate dagli utenti nelle loro piattaforme.

Rispetto ad altri settori, però, la complessità delle immagini nel mondo dell'editoria è evidentemente più elevata e, pertanto, le normali soluzioni al momento disponibili sul mercato non sono sufficienti. Partendo da queste considerazioni, abbiamo iniziato un progetto di ricerca in collaborazione con Tommaso Dringoli, uno studente laureato dell'Università di Siena, per testare l'uso di alcuni algoritmi di AI già disponibili sul mercato applicati ora a pubblicazioni digitali.

Le fasi del progetto

Per iniziare, è stato necessario definire un template per la creazione delle descrizioni alternative, composto da due parti complementari tra loro:

image category: una tassonomia di categorie per classificare i diversi tipi di immagini (ad esempio: art, comic, drawing, logo, photograph, ecc.);
image description, ovvero la descrizione vera e propria del contenuto della figura.

Per il primo elemento della descrizione, l’image category, abbiamo provato diversi approcci che ci hanno portato a utilizzare Cloud AutoML Vision di Google, un servizio che consente di testare un algoritmo di machine learning da un set di dati iniziale di immagini catalogate manualmente. Abbiamo quindi addestrato l'algoritmo caricando mille immagini organizzate per category: 80% sono state utilizzate per il training (dataset), il 10% per ottimizzare gli iperparametri del modello (validation set), il restante 10% per valutare il modello (test set). Dopo questa fase, è stato possibile utilizzare il servizio caricando nuove immagini in modo per riconoscesse per ognuna una categoria assegnata.

Per il secondo elemento, la description, abbiamo valutato diversi servizi disponibili sul mercato analizzando i punti di forza, i costi e l'efficacia. In realtà attualmente non esiste un servizio che sia in grado di creare descrizioni appropriate per tutte le categorie di immagini che abbiamo identificato, di conseguenza abbiamo dovuto selezionare due diversi servizi:

Microsoft Computer Vision per le fotografie;
Google Cloud Vision API per identificare entità note (come loghi, bandiere, opere d’arte, ecc.) o per utilizzare l’OCR (Optical Character Recogniction) delle immagini con testo.

Una volta scelti i servizi, abbiamo sviluppato un tool che riceve in input un file ePub, estrae tutte le immagini presenti al suo interno e crea automaticamente la descrizione alternativa, formata dai suoi due elementi (category e description). Abbiamo dovuto escludere alcune tipologie di immagini, come fumetti, grafici, mappe and firme, per cui gli output ottenuti dai servizi testati risultano totalmente aleatori.

A questo punto, come fase conclusiva, abbiamo potuto testare il prototipo su alcuni file forniti dagli editori, ottenendo i seguenti risultati:

image category generata automaticamente: 42% di accuratezza
image description generata automaticamente: 50% di accuratezza

Pensiamo che l’accuratezza dell’image category si possa migliorare, affinando il dataset iniziale di addestramento di Cloud AutoML Vision, mentre per la description è necessario ancora aspettare un’evoluzione degli algoritmi disponibili sul mercato. Tuttavia, considerando la rapidità con cui la tecnologia avanza oggi, abbiamo in programma nuovi test entro il prossimo anno per verificare eventuali miglioramenti nell’automazione.

Alcune considerazioni

Grazie al lavoro svolto durante il progetto pilota di Fondazione Lia, abbiamo potuto constatare innanzitutto come gli algoritmi di riconoscimento dell'immagine attualmente disponibili sul mercato sono stati ottimizzati per le fotografie, mentre non sono in grado di descrivere altre immagini (disegni, opere d'arte, loghi).

È una considerazione fondamentale, se pensiamo che la maggior parte del contenuto grafico e delle immagini disponibili in libri di layout complessi (libri scolastici, pubblicazioni accademiche, scientifiche e professionali) non è costituito da fotografie quanto da disegni, illustrazioni, infografiche, immagini complesse, diagrammi, schemi, ecc. Per queste tipologie di immagini sarà pertanto necessario prevedere una nuova generazione di algoritmi.

Un punto cruciale per noi è quello di creare più consapevolezza nel mondo editoriale sull'importanza di descrizione alternative accurate: ecco perché, tra le attività che Fondazione Lia realizzerà in autunno, ci sarà un incontro al Laboratorio Formentini per l’editoria dedicato a questo specifico argomento. Invitiamo grafici, redattori editoriali e altre figure professionali di realtà che producono – o vogliono produrre – pubblicazioni accessibili a condividere con noi la loro esperienza. L’incontro si inserisce all’interno del progetto MICA - Milano per la cultura dell'accessibilità, realizzato in collaborazione con Fondazione Cariplo. Maggiori informazioni saranno fornite in seguito.

L'autore: Gregorio Pellegrino

Laureato in ingegneria informatica, mi occupo di editoria digitale, nuovi media e web come consulente (e docente) per aziende editoriali. Sono responsabile tecnico della Fondazione LIA - Libri Italiani Accessibili per la quale svolgo attività di consulenza e formazione per organizzazioni nazionali e internazionali che vogliono cambiare i processi produttivi per mettere al centro l'accessibilità.

Guarda tutti gli articoli scritti da Gregorio Pellegrino

Vai alla categoria Innovazione