L'industria al servizio della storiografia. Perfezionamento delle tecnologie OCR per il text mining di documenti storici

Starting date
June 27, 2017
Duration (months)
12
Departments
Foreign Languages and Literatures
Managers or local contacts
Salgaro Massimo

L’attuale disponibilità di sempre più voluminose “digital libraries”, dove i documenti storici possono essere liberamente consultati tramite una semplice connessione internet, permette la realizzazione di ricerche sempre più estese e dettagliate sul nostro patrimonio culturale. E la possibilità di consultare questi documenti con il supporto di strumenti computazionali offre prospettive ancora più rivoluzionarie. Tra le applicazioni del “text mining” si possono contare: l’attribuzione automatica di testi anonimi ad autori celebri o a personaggi determinanti nella storia di un paese; la realizzazione di mappe e grafici per visualizzare nei minimi dettagli gli spostamenti di grandi masse di popolazione, o i mutamenti dell’opinione pubblica, o l’evoluzione di gusti e preferenze in ambito artistico e letterario. Per realizzare tutto questo, numerose tecniche sono state messe a punto negli ultimi anni (stylometry, spacial analysis, sentiment analysis, topic modeling e molte altre), con sempre più elevati livelli di efficienza.Tra i più grandi impedimenti alla realizzazione di questo tipo di studi, è il fatto che la maggior parte dei documenti storici, benché digitalizzati, è ancora priva di una corretta ricodifica in formato testuale. Alla scansione delle immagini si accompagnano spesso digitalizzazioni compiute con strumenti di riconoscimento ottico dei caratteri (OCR) che mostrano livelli di efficienza molto variabili.Obiettivo principale del progetto è quello di mettere a punto un sistema OCR più performante rispetto a quelli attualmente disponibili per il font Fraktur. Questo obiettivo è da intendersi come puramente funzionale alla realizzazione di ulteriori, più complessi progetti, ma è anche una base fondamentale, senza la quale molte ricerche in ambito storiografico tedesco non potrebbero essere realizzate. Fino agli inizi del XX secolo, infatti, Fraktur è un font ampiamente usato, non solo in produzioni specialistiche o d’élite, ma anche in prodotti rivolti ai comuni cittadini. Il progetto prevede la partecipazione delle Università di Verona e Göttingen e dell'azienda partner Digital 74 SRL. (€ 34.152,68)

Sponsors:

Regione Veneto FSE
Funds: assigned and managed by the department

Project participants

Simone Rebora
Research Scholarship Holders
Massimo Salgaro
Assistant Professor

Activities

Research facilities