Il tuo browser non supporta JavaScript!
Vai al contenuto della pagina
Innovazione

Audiolibri e intelligenza artificiale, dalla Buchmesse la mappa delle tecnologie vocali

di Alessandra Rotondo notizia del 15 ottobre 2025

Negli ultimi quindici anni, l’industria globale dell’audiolibro ha conosciuto una crescita esponenziale, fino a raggiungere un valore stimato di quasi sette miliardi di dollari. Oggi l’intelligenza artificiale promette di accelerare ulteriormente questa espansione, rivoluzionando tempi, costi e linguaggi della produzione audio. È quanto emerge dal white paper AI and Audio: How Artificial Intelligence is Redefining the Audiobook Industry, pubblicato da Frankfurter Buchmesse e Dosdoce.com, che fotografa l’impatto crescente delle tecnologie di sintesi vocale, traduzione automatica e automazione produttiva nell’audiobook economy. All’interno dello studio, elaborato in collaborazione con Proyecto451, è stata presentata anche una nuova mappa che censisce gli strumenti di creazione e gestione di contenuti audio con voci sintetiche più utilizzati nei mercati di lingua spagnola: Spagna, America Latina e comunità ispanofona degli Stati Uniti.
Lo studio individua e analizza oltre 160 soluzioni basate su intelligenza artificiale attualmente impiegate nell’industria audio, dalle applicazioni di traduzione simultanea all’automazione delle fasi di pre- e post-produzione, fino alla generazione di voci sintetiche sempre più realistiche. Secondo Javier Celaya, fondatore di Dosdoce.com e autore del rapporto, «questi strumenti diventeranno un’estensione del lavoro dei professionisti dell’audio per migliorarne produttività e creatività, non per sostituirli».



Tre modelli di business nell’audio IA
La mappa elaborata da Dosdoce e Proyecto451 distingue tre categorie operative che, insieme, descrivono l’attuale ecosistema dell’audio generato da intelligenza artificiale.
La prima categoria è quella dei modelli, ossia i motori di sintesi vocale: si tratta delle tecnologie di base che trasformano un testo scritto in voce artificiale. Ogni modello è sviluppato e gestito da un’azienda proprietaria. È il caso, per esempio, del sistema di sintesi vocale interno ad Amazon, utilizzato da Audible per produrre contenuti audio, o di ElevenLabs, società statunitense specializzata nella creazione di voci sintetiche ad alta fedeltà, impiegate in numerose piattaforme editoriali e multimediali.
La seconda categoria è quella degli aggregatori, piattaforme che integrano diversi modelli di terze parti e permettono agli utenti di scegliere tra più opzioni vocali o linguistiche in un unico ambiente tecnologico. Sebbene molto diffuse nei mercati anglofoni, queste soluzioni sono ancora limitate nei paesi di lingua spagnola e verranno approfondite in una fase successiva della ricerca.
Infine ci sono i produttori, che utilizzano uno o più modelli per realizzare e distribuire contenuti finiti: audiolibri, podcast o materiali informativi. In questo gruppo rientrano Storytel e Spotify, che hanno avviato una collaborazione con ElevenLabs per integrare la narrazione sintetica nei propri cataloghi audio.
In Spagna, spiccano due realtà emergenti. Digitalks.ai, che combina più motori di intelligenza artificiale per assistere case editrici e produttori nella realizzazione di audiolibri, e Vocality.ai, attiva da oltre vent’anni nella produzione di contenuti sonori e dotata di una tecnologia proprietaria per la generazione di voci artificiali.
Complessivamente, il 70% delle organizzazioni analizzate nel rapporto sviluppa un proprio motore di intelligenza artificiale, mentre il restante 30% lavora come produttore, offrendo servizi aggiuntivi come il pre-processamento del testo, i controlli automatizzati di qualità e la revisione umana finale per garantire precisione e coerenza del risultato.


Geografie e disuguaglianze tecnologiche
La ricerca dedica un’attenzione particolare alla provenienza geografica delle tecnologie, dato che la regolamentazione e le politiche di tutela dei dati variano notevolmente da un Paese all’altro. Il 58% delle piattaforme individuate ha sede negli Stati Uniti, il 35% in Europa – con una concentrazione significativa nel Regno Unito – e il 9% in Asia, dove India e Singapore si stanno imponendo come poli di innovazione emergenti.
Questa distribuzione mette in evidenza una forte disuguaglianza tecnologica tra le regioni, ma anche un ampio margine di crescita per l’America Latina e i mercati emergenti, dove il potenziale di applicazione è ancora in gran parte inesplorato.

 
Sintesi vocale e nuove esperienze d’ascolto
Otto realtà su dieci offrono oggi servizi di sintesi vocale text-to-speech, la funzionalità più richiesta da autori, editori e piattaforme di streaming. Le versioni più recenti di queste tecnologie permettono di generare voci sempre più espressive, capaci di restituire emozioni e di costruire paesaggi sonori immersivi.
Tra le innovazioni più curiose spicca la funzione voice changer, che consente agli ascoltatori di modificare la voce con cui ascoltare un audiolibro, scegliendo tra diverse opzioni – comprese voci sintetiche – al posto di quella registrata originariamente da un interprete umano. Il 44% delle piattaforme analizzate consente inoltre di creare voci personalizzate, mentre il 56% offre strumenti per regolare tono, ritmo e intensità in base alle esigenze di ciascun progetto.
Secondo i dati raccolti, la produzione di audiolibri basata su intelligenza artificiale può ridurre i costi tra il 50 e l’80% rispetto ai processi tradizionali con voci umane, sempre a patto che il controllo qualitativo resti alto grazie a sistemi di supervisione automatica e revisione umana.

 
Le prime applicazioni nel mondo del libro
Il rapporto rileva anche come alcune realtà editoriali stiano già sperimentando strumenti di questo tipo per semplificare la lavorazione dei titoli. NotebookLM di Google, ad esempio, viene utilizzato per creare sintesi audio di manoscritti della durata di cinque o sette minuti, così da aiutare gli studi di produzione a comprendere meglio l’opera e a selezionare la voce più adatta. Altre aziende impiegano VoicePowered, un software che consente di trasformare automaticamente articoli o saggi in formato podcast grazie a un sistema di intelligenza artificiale generativa.
 

Un mercato globale in trasformazione
Il white paper colloca queste innovazioni in un contesto di forte evoluzione del mercato. Dei quasi sette miliardi di dollari di fatturato globale annuo, 2,6 miliardi provengono dal Nord America, 1,5 miliardi dall’Europa, 1 miliardo dalla Cina e circa 2 miliardi da altri mercati.
L’espansione dell’intelligenza artificiale nel settore audio potrebbe favorire la produzione di contenuti in lingue e aree oggi poco rappresentate, contribuendo a una maggiore diversità culturale. Come osserva Ama Dadson, fondatrice e CEO della piattaforma ghanese AkooBooks Audio, «l’intelligenza artificiale può democratizzare la narrazione, dando alle voci africane la possibilità di raggiungere nuovi pubblici attraverso la traduzione automatica, la scoperta e formati creativi che superano le barriere linguistiche».
Secondo il rapporto, tuttavia, i benefici economici e produttivi di queste tecnologie non saranno immediati: potrebbero servire due o tre anni per vederne appieno gli effetti.
 

Opportunità e rischi
Accanto alle opportunità, il documento richiama l’attenzione sui possibili effetti occupazionali dell’automazione. Molti professionisti e professioniste del settore – attori e attrici vocali, traduttori e traduttrici, editor, produttrici e produttori – temono che l’uso esteso di sistemi di intelligenza artificiale possa avere un impatto negativo sul mercato del lavoro.
Il white paper riconosce che l’introduzione dell’IA metterà alla prova aspetti fondanti come il copyright e la remunerazione, ma evidenzia anche il potenziale liberatorio di queste tecnologie: «potrebbero consentire a chi lavora con soluzioni e contenuti audio di dedicarsi ad aspetti più creativi e complessi, che solo gli esseri umani possono svolgere». Come sintetizza Javier Celaya, «quando tutte le aziende utilizzeranno gli stessi strumenti di intelligenza artificiale, saranno l’ispirazione e la creatività umana a fare la differenza».

L'autore: Alessandra Rotondo

Dal 2010 mi occupo della creazione di contenuti digitali, dal 2015 lo faccio in AIE dove oggi sono responsabile del contenuto editoriale del Giornale della Libreria, testata web e periodico in carta. Laureata in Relazioni internazionali e specializzata in Comunicazione pubblica alla Luiss Guido Carli di Roma, ho conseguito il master in Editoria di Unimi, AIE e Fondazione Mondadori. Molti dei miei interessi coincidono con i miei ambiti di ricerca e di lavoro: editoria, libri, podcast, narrazioni su più piattaforme e cultura digitale. La mia cosa preferita è il mare.

Guarda tutti gli articoli scritti da Alessandra Rotondo

Inserire il codice per il download.

Inserire il codice per attivare il servizio.