OCR

Che cos'è l'OCR e come funziona

Permette di digitalizzare documenti cartacei, rendendoli modificabili da un programma di videoscrittura come Word. Ecco come funziona l'OCR
Che cos'è l'OCR e come funziona FASTWEB S.p.A.

Immaginate di voler creare una copia digitale di un contratto in forma cartacea o l'articolo di una rivista o un quotidiano. Avreste, a vostra disposizione, una duplice opzione: impiegare decine e decine di minuti nel riscrivere il contratto (o l'articolo) a mano; oppure utilizzare uno scanner, una fotocamera digitale o uno smartphone in abbinamento con un software OCR (Optical character recognition, riconoscimento ottico dei caratteri in italiano).

Che cos'è l'OCR

Tecnicamente parlando, l'Optical character recognition è il processo di conversione di un testo stampato in un formato che può essere facilmente modificato e conservato da un computer (un documento di testo Word, ad esempio). La tecnologia OCR richiede l'utilizzo combinato di hardware (scanner, fotocamera digitale o smartphone) e software (programmi ad hoc o dotati di funzionalità OCR come Adobe Acrobat Professional). Inoltre, tecniche di OCR avanzato possono richiedere la presenza di una scheda dedicata all'interno del computer.

 

Software OCR

 

Campi di applicazione dell'OCR

Permettendo la rapida digitalizzazione di grosse moli di documenti cartacei, l'OCR trova applicazione negli ambiti più vari.

  • In ambito bancario può essere utilizzato per automatizzare la fase di controllo e gestione delle richieste di denaro. Una richiesta fondi precedentemente autorizzata, può essere resa esecutiva dopo esser stata scansionata e adeguatamente “trattata” da un software OCR. In questa seconda fase del processo non è richiesto l'intervento umano, permettendo di risparmiare ingenti risorse economiche;

  • In ambito legale c'è stato un sensibile aumento dell'utilizzo di tecniche OCR per digitalizzare documenti cartacei al fine di risparmiare spazio ed eliminare la necessità di vagliare foglio dopo foglio dei documenti composti anche da centinaia (se non migliaia) di pagine. La possibilità di trasformare sentenze, leggi e faldoni d'indagine in documenti digitali di testo, modificabili e ricercabili, ha semplificato il lavoro dei professionisti della Legge.

  • Il processo di dematerializzazione dei documenti, però, interessa in maniera particolare la Pubblica Amministrazione. Divenuta nel tempo uno degli aspetti chiave dell'Agenda Digitale italiana, la dematerializzazione è una delle linee d'azione più significative per la riduzione della spesa pubblica, tanto in forma diretta, quanto in forma indiretta.

Come funziona un OCR

Per semplicità, si supponga che l'intero alfabeto sia composto da un numero molto limitato di lettere. Una decina o meno, ad esempio. Anche in questo caso, il lavoro cui è chiamato un software OCR è piuttosto complesso. Pur non raggiungendo la complessità della scrittura a mano, anche i testi stampati possono variare profondamente a seconda del font utilizzato. Ogni singola lettera può quindi assumere forme e dimensioni differenti, rendendo il lavoro di riconoscimento particolarmente difficile.

Ci sono due differenti modalità per riuscire ad aggirare questo problema: pattern recogniction (“riconoscimento dello schema” in italiano) e feature detection (“rilevamento delle caratteristiche” in italiano).

 

Funzionamento OCR

 

Nel primo caso l'analisi del software OCR avviene sull'intero carattere da digitalizzare. Una volta scansionato e ripulito da eventuali imperfezioni, il carattere viene confrontato con altri presenti nel database del programma. La digitalizzazione avverrà solamente nel caso in cui ci sarà piena corrispondenza tra il carattere scansionato e uno degli elementi del database.

Nel secondo caso, invece, i caratteri scansionati verranno scomposti in vari elementi, così da ricavarne tratti e caratteristiche salienti e generali. La lettera A, ad esempio, è caratterizzata da due linee oblique che si incontrano in alto, attraversate da una linea orizzontale. Una volta che il software OCR avrà rilevato queste informazioni, le confronterà con i dati presenti nel proprio database: nel caso in cui vengano rilevai elementi similari, si potrà passare alla fase di digitalizzazione del carattere.

 

14 maggio 2014

Copyright © CULTUR-E
Ebook
Sicurezza in Rete: ne sai abbastanza?
Strumenti utili, suggerimenti pratici e tutto quello che devi assolutamente sapere per proteggere davvero i tuoi dispositivi e i tuoi dati personali quando sei connesso
scarica l'ebook

Iscriviti alla
newsletter del
Digital Magazine di
Fastweb

Riceverai ogni settimana le notizie più interessanti sul mondo della tecnologia!
Iscriviti

Grazie per esserti iscritto!

Abbiamo inviato una mail all'indirizzo che hai indicato: per completare l'iscrizione alla newsletter del Digital Magazine di FASTWEB clicca sul link all'interno della mail