Home > Guide > Scansione testo con OCR su Linux

Scansione testo con OCR su Linux

Oggi volevo riscrivere a computer lo statuto dell’associazione di volontariato, il cui file originale non si trova più. Allora ho pensato di fare una bella scansione ed importare il testo tramite riconoscimento OCR… ma volevo rimanere su Ubuntu!

Fortunatamente ho trovato una soluzione semplice, rapida, e soprattutto efficiente (il testo viene riconosciuto molto bene) grazie a XSane (software predefinito di scansione in Linux) + Tesseract (progetto per riconoscimento OCR a linea di comando). Ecco la pagina dove ho trovato i passaggi da fare: http://linux.p2pforum.it/wiki/OCR_con_tesseract_in_XSane

Testato con successo in Ubuntu 8.10 (Intrepid Ibex).

Essenzialmente, bisogna anzitutto installare i pacchetti (io lo faccio con Synaptic…):

  • imagemagick
  • tesseract-ocr
  • tesseract-ocr-ita

Poi, scaricare lo script xsane2tess; io a questo punto ho modificato la riga 15 con: TEMP_DIR=/tmp/ , in modo da non dover creare una cartella temporanea sotto la home (va benissimo quella globale…), quindi la riga 74, dove c’è il comando che richiama tesseract, aggiungendo in fondo: -l ita , così da fargli usare il dizionario italiano.

Posizionare quindi il file in /usr/bin, dandogli i permessi di esecuzione; dalla shell si possono usare questi comandi:

  • chmod a+rx xsane2tess
  • sudo mv xsane2tess /usr/bin

Infine, aprire XSane, andare in Preferenze > Impostazioni > OCR, e impostare il campo “Comando OCR” con xsane2tess. La configurazione è così completata!

Per effettuare una scansione con riconoscimeno OCR, avviare XSane, selezionare la modalità “Visualizzatore“, e come profondità di colori “Binario“. Avviare la scansione (tasto Acquisisci), alla fine apparirà una finestra contenente la pagina, fare click sul secondo pulsante della barra in alto, con le lettere ABC DEF; scegliere il file TXT dove salvare il testo, e dopo aver confermato attendere pazientemente!

Non c’è che dire: un passo avanti per il mondo Linux, vista l’importanza in certi casi dell’OCR…

Categorie:Guide Tag:, , ,
  1. 16/01/2011 alle 16:10

    Funziona tutto! Grazie!
    Solo una cosa:
    1) – ricordarsi di entrare come ROOT altrimenti lo SCRIPT non lo si può copiare in /usr/bin in quanto non si hanno i permessi.

    PS: anche il programma gImageReader è molto valido ed offre la possibilità di correggere gli errori di ortografia.

    • 16/01/2011 alle 18:20

      Infatti la parola “sudo” davanti al comando “sudo mv xsane2tess /usr/bin” serve proprio per avere i diritti di ROOT nell’esecuzione dello spostamento. In Ubuntu/Debian funziona così, non si entra mai come root.

  1. No trackbacks yet.

Lascia un commento

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: