Data Science per il settore editoriale

Dati – la spina dorsale di ogni industria digitale

Ogni industria cui si possa pensare è digitale, o per la maggior parte digitale o in via di trasformazione mentre si sta leggendo questa frase. L’editoria non fa eccezione. Dal momento in cui gli strumenti digitali sono coinvolti nella creazione, distribuzione e vendita di prodotti, le opportunità di business crescono esponenzialmente, così come i potenziali rischi e sfide.

Uno dei fatti noti di un processo di conversione digitale è che, improvvisamente, quasi ogni passo compiuto può essere misurato, e i dati relativi possono essere archiviati e analizzati. Benché questo fosse noto almeno sin da quando Edgard Codd ha inventato il modello relazionale per i database nel 1970, e benché per la fine degli anni ’90 tutti stessero usando database relazionali in ogni contesto, allo stesso tempo c’erano molti elementi in evoluzione che avrebbero cambiato il modo in cui stiamo approcciando i dati negli ultimi anni. Primo, l’avvento del web ha portato milioni di pagine e dunque di informazioni potenzialmente importanti ad essere disponibili pubblicamente: documenti legali, brevetti, competitive data, eccetera. Secondo, i social network e i siti del Web 2.0 hanno moltiplicato la quantità di contenuti generati dagli utenti che, per quanto rumoroso, ha informazioni preziose per le aziende e le istituzioni, come nelle aree della reputation o dell’impronta digitale. Terzo, il prezzo di archiviazione ha continuato a calare a ritmo accelerato e i servizi cloud hanno iniziato a rendere estremamente facile e conveniente immagazzinare sempre più informazioni ed elaborarle molto più velocemente. Per molte compagnie digitali, ora non c’è bisogno di comprimere o rimuovere dataset grazie ai prezzi di archiviazione. Quarto, hanno fatto la loro apparizione le nuove tecnologie e i nuovi algoritmi, come MapReduce o i database NoSQL, che hanno cambiato il modo in cui vengono gestiti i dati. Ultimo, le tecnologie e gli algoritmi per l’elaborazione dati che erano stati precedentemente abbandonati, come Neural Networks, sono stati rinnovati con qualche cambiamento e l’uso di tecniche avanzate per l’elaborazione dati e l’archiviazione hanno mostrato il loro vero potenziale.

La Data Science, concetto che ora comprende tutti i tipi di acquisizione, elaborazione e visualizzazione dati che un’azienda richiede, è diventata la pietra angolare di settori come i trasporti, la finanza, i film, la medicina o il commercio al dettaglio. È così anche per l’editoria?

Editoria e Dati

Negli ultimi anni è in corso una discussione sempre più pressante riguardo a come e se i dati effettivamente tocchino l’editoria, gli autori e i lettori. E se è così, PERCHÉ. Ci sono alcuni articoli e interventi tenuti durante alcune conferenze riguardo all’editoria e ai dati, e indubbiamente l’interesse è cresciuto stabilmente nell’ultimo paio d’anni. In passato, le discussioni si sono concentrate soprattutto su metadati e SEO, due aspetti critici dei dati che ancora non hanno una soluzione chiara in editoria. Esistevano anche alcuni discorsi riguardo alla comprensione del comportamento dei lettori durante la lettura, che avrebbero potuto essere usati per offrire prodotti migliori e servizi a valore aggiunto, ma erano tendenzialmente prevenuti nei confronti della paura della protezione dei dati; qualcosa di cui tutti dobbiamo essere consci e che va rispettata, ma che non può impedirci di valutarne i potenziali benefici.

Nel frattempo, mentre editori e agenti stanno ancora pensando se questo abbia senso o meno, i grandi rivenditori stavano implementando a ritmi febbrili nuovi algoritmi e servizi per trarre vantaggio dalle informazioni fornite dalle vendite e dai comportamenti degli utenti. L’algoritmo di suggerimenti di Amazon è solo la punta di tutto quello che potrebbero fare con tutte le informazioni che possiedono a partire dalle abitudini di acquisto degli utenti. Ma sono gli unici esponenti del settore che possano trarre vantaggio dai dati? Certamente no, e ci sono alcune iniziative che lo dimostrano, come gli sforzi per la comprensione del consumatore di Penguin Random House UK, il lavoro di data science di Trajectory sul contenuto semantico, le operazioni di tracking lato-utente di Jellybooks riguardo al comportamento del lettore per i focus group, la altmetric dashboard di Bookmetrix (al momento disponibile solo per lo staff di Springer), l’analisi di Tekstum su sentiment ed emozione riguardo ai libri, l’ulteriore lavoro di semantica di Linkgua, i suggerimenti basati sul contenuto di Bibblio o l’intelligente analisi delle parole chiave dei libri di Kadaxis.

Le Web analytics non sono sufficienti

Molte aziende, non solo nell’ecosistema editoriale, hanno speso molto del loro tempo dedicato ai dati sulle web analytics. Dare importanza alle web analytics è un bene, ed è stato un ottimo modo per le aziende per cominciare a ottenere valore dalle informazioni che vengono dal comportamento dei loro utenti.

L’anno scorso sono comparse alcune metodologie e strutture interessanti – e io sono piuttosto appassionato del modello AARRR di Dave McClure, ma ce ne sono altri – che aiutano ad organizzare le metriche e le statistiche.

Ma non è abbastanza. Pensando in termini economici, tutte le aziende oggi stanno, a diversi livelli, utilizzando le web analytics. Così tutte le aziende conoscono come i loro consumatori fanno uso dei loro siti, le conversion rate, se abbandonano il sito velocemente o no… e la maggior parte di loro comprende anche l’importanza del mobile. Benché fondamentale, questo non porta più alcun vantaggio.

Altre aziende stanno cominciando a guardare oltre. Stanno cominciando a immagazzinare, e poi analizzare, quanti più dati possibile riguardo ai loro utenti e ai loro processi.

Da 24symbols, un subscription service per e-book e audiolibri, usiamo Google Analytics e altri strumenti per scoprire il numero di visite, utenti e visite per pagina che otteniamo; le conversion rate da visitatori a utenti registrati; obbiettivi relativamente complessi per capire le micro-conversioni come la visita a una pagina o a un’altra. Ma immagazziniamo e analizziamo anche le informazioni dei nostri lettori. Sono trattate tutte confidenzialmente e organizzate in maniera aggregata. Non ci importa molto quel che Mario o Maria Rossi stanno facendo, ma certamente ci importa il comportamento dei gruppi o dei segmenti a cui appartengono, come il mese e l’anno in cui si sono iscritti, la provenienza, il genere, eccetera.

Quindi lavoriamo intensamente su queste informazioni. Abbiamo cominciato con semplici statistiche e tabelle che sono cresciute fino a più di duecento diverse metriche disponibili – benché come molte metodologie raccomandano, noi non ne monitoriamo più di un paio alla volta. E ora stiamo lavorando su un’analisi più avanzata, come le previsioni e i suggerimenti, usando tutto, da un maggior numero di statistiche agli algoritmi di machine learning o ai dati aggregati e anche il Deep Learning.

Questo è il momento in cui concetti nuovi come Big Data o Data Science entrano in gioco. Mentre molte di queste nuove parole sono solo neologismi per ora di moda, pensate per creare nuove aspettative, la verità è che mentre i dati diventano una delle pietre angolari di qualunque business, assieme alle elaborazioni e ai software, la gestione di dataset complessi e/o enormi e la conoscenza, gli strumenti e le elaborazioni necessarie per elaborarli stanno creando un corpus che deve però essere compreso (anche non completamente) da qualunque azienda voglia rimanere attiva anche tra cinque anni. I loro concorrenti ci stanno già lavorando.

Io, me stesso e me?

Naturalmente, ottenere tutti i dati da sé per processarli a proprio piacere sarebbe perfetto per gli attori del settore editoriale. Ma questo non è il modo in cui il mondo attuale funziona. Per esempio, questo richiederebbe che gli editori avessero accesso diretto ai consumatori, condizione possibile e fattibile per un numero molto limitato di loro, quelli che sono molto riconoscibili dal pubblico. Per quanto le Big 5 cerchino di creare i loro siti per consumatori, le persone semplicemente non entrano in una libreria per comprare un libro «HarperCollins» o «Random House». Ma questo non è un problema soltanto per gli editori. Come piccolo rivenditore, 24symbols non immagazzina le informazioni sulle carte di credito dei propri utenti, perché starebbe a significare un aumento nel livello di protezione dati che non possiamo assumerci. Perciò lo deleghiamo, come il 99% delle attività di e-commerce, a una terza parte con gli appropriati livelli di sicurezza e meccanismi di protezione dati, al costo di perdere l’accesso ad alcuni dati molto interessanti. I distributori ricevono molti dati dai rivenditori e dagli editori, e alcuni di loro, come Vearsa, li stanno usando per offrire nuovi servizi avanzati agli editori, ma non conoscono in alcun modo l’effettivo comportamento dei potenziali lettori.

Questo non dovrebbe sorprendere, dato che l’industria editoriale è piuttosto evoluta ed è una realtà in cui la catena valoriale è maturata fino a un punto abbastanza disaggregato, in cui ogni attore della filiera è piuttosto interessato a mantenere quanta più conoscenza possibile per sé. Nessuno ha una visione chiara di quello che sta succedendo, proprio come nella favola del cieco e dell’elefante.

Quel che abbiamo imparato noi di 24symbols è che le informazioni provenienti dai rivenditori e dai servizi che si rivolgono al pubblico sono fondamentali per gli editori. Senza andare nei dettagli dei clienti individuali, i dati aggregati possono essere usati per imparare molto di più riguardo al come e al quando le persone leggono i libri di un editore; trovare correlazioni tra segmenti di lettori; o comprendere le effettive e reali percentuali di successo e fallimento dei titoli, oltre alle vendite e ai commenti soggettivi. Ma solo un numero molto limitato di rivenditori sono disposti a lavorare con gli editori e fornire queste informazioni. E, allo stesso tempo, solo pochi editori hanno il tempo e le conoscenze per comprendere completamente il valore di queste informazioni.

Ma cosa accadrebbe se un editore non avesse le informazioni dei lettori? Dovrebbe semplicemente abbandonare l’elaborazione dei dati? No di certo! Ci sono molte altre aree non di poco conto in cui i dati sono fondamentali:

Analizzare i titoli e compararli con quelli dei propri concorrenti (qualcosa su cui Bookmetrix, 24symbols o Textum stanno già lavorando);
Migliorare le previsioni di vendita con l’analisi predittiva;
Comprendere pienamente l’importanza e la portata dei social network per la promozione di ciascuno dei propri libri;
L’editore sa in che modo la qualità dei suoi metadati condiziona i risultati dei titoli nei diversi canali?
L’analisi del sentiment nei commenti pubblici sui social network, i blog e i rivenditori dei loro titoli, confrontati con quelli dei propri concorrenti.

La lista è più lunga di cosi, e ognuna delle aree sarà fondamentale per editori e autori negli anni a venire.

Come cominciare – ruoli, incarichi e strumenti

Se gli editori che stanno affrontando la nuova realtà digitale hanno delle difficoltà ad incorporare ruoli tecnici nei loro team, lavorare con i dati è ancora più difficile, perché si può essere sopraffatti dalla moltitudine di informazioni sulle statistiche, gli algoritmi, i network neurali e strumenti che cambiano ogni due mesi. Osservate l’immagine qui sotto che mostra solo alcune delle tecniche, degli algoritmi, delle teorie e degli strumenti che un data scientist dovrebbe conoscere.

(Fonte: http://nirvacana.com/thoughts/becoming-a-data-scientist/)

In aggiunta, trovare data scientist sta diventando difficile e costoso. Un giovane data scientist negli Stati Uniti può avere uno stipendio di partenza di 90 mila dollari l’anno, e benché nella vecchia Europa questo salario potrebbe essere più basso, sarebbe comunque un grosso peso per gli editori piccoli e medi. Il trucco sta nel cominciare dal basso ed evolvere ripetutamente. Trovare qualcuno che faccia già parte del proprio team e che non sia spaventato dal tirarsi su le maniche e imparare lavorando; nel frattempo, cercare aiuto da un partner o da qualcuno che conosce effettivamente i dati e cominciare a giocarci un po’. Per esempio, 24symbols fornisce dati quasi simultanei riguardo ai titoli letti di un editore. Per molti di loro è una grande opportunità per cominciare a pensare a quello di cui hanno bisogno.

Il secondo passo è confrontare queste informazioni con quelle che si hanno. I dati coincidono con le loro aspettative? Le metriche «Numero di letture» o «Numero di pagine» coincidono con le «classiche classifiche di vendita»? Se non è così, perché? Possiamo stabilire una nuova ipotesi riguardo alla nostra attività, e usare le metriche odierne o una più recente per aiutarci a validarla?

Il terzo passo, naturalmente, è decidere cos’altro è necessario, cos’ha funzionato e cosa non l’ha fatto. E poi, ripetere tutto da capo

Come si può vedere nell’immagine sottostante, ci sono centinaia di strumenti che si possono usare. Ma non disperate, Microsoft Excel sarà probabilmente il primo di cui avrete bisogno. E quindi un po’ di R o di Python, linguaggi che sono completamente documentati, con strumenti piuttosto avanzati e corsi online per facilitare la curva d’apprendimento.

(Fonte: http://mattturck.com/2016/02/01/big-data-landscape/)

Conclusioni

Una cosa cui fare attenzione nel lavorare coi dati è che è molto facile dimenticarsi il motivo per cui abbiamo cominciato a studiare uno specifico dataset e limitarsi ad approfondirlo sempre di più. Gli obbiettivi economici devono essere chiari e devono essere nella mente di tutti tutto il tempo – pur non trascurando la magia dei modi in cui le analisti esplorative posso aiutare a trovare ragioni o sfide inaspettate–.

Ma senza dati, gli attori del settore editoriale non vedono molte delle sfide che affrontano e che affronteranno nei prossimi anni, con lettori più sofisticati, persone incaricate da altre industrie collegate e avvantaggiati dalle loro conoscenze riguardo a ciò che le persone vogliono quando cercano mobile, cultura digitale e intrattenimento, ed elaborazioni interne più complesse che richiedono una comprensione più profonda.

Superati i neologismi alla moda, i dati sono qui per rimanere. Nell’editoria, dovremmo dimenticarci delle discussioni sui «Big Data» o l’«Intelligenza artificiale» e concentrarci su quello che abbiamo bisogno di ricavare dai dati, dove possiamo trovarlo e cosa abbiamo bisogno di sapere per ottenere le perle utili per prendere decisioni economiche valide e basate sui dati.

Questo articolo è stato pubblicato originariamente in lingua inglese su Smart Book (TISP). Traduzione di Camilla Pelizzoli.

L'autore: Justo Hidalgo

Justo Hidalgo è co-fondatore e amministratore delegato di 24symbols, un subscription service per e-book e audiolibri. Insegna Product Strategy, Innovation e Lean Analytics a livello universitario e professionale, ed è uno start-up mentor. Prima di 24symbols, Justo è stato Vice Presidente del reparto Product Management e consulente presso Denodo Technologies, dirigendo le prevendite a livello globale e la gestione del prodotto. Ha conseguito un dottorato in Data Science e una laurea in Computer Science, e ha studiato Product Management, Product Marketing, Innovation e Creativity.

Guarda tutti gli articoli scritti da Justo Hidalgo

Vai alla categoria Innovazione