Archivio

Posts Tagged ‘intrepid’

Scansione testo con OCR su Linux

Oggi volevo riscrivere a computer lo statuto dell’associazione di volontariato, il cui file originale non si trova più. Allora ho pensato di fare una bella scansione ed importare il testo tramite riconoscimento OCR… ma volevo rimanere su Ubuntu!

Fortunatamente ho trovato una soluzione semplice, rapida, e soprattutto efficiente (il testo viene riconosciuto molto bene) grazie a XSane (software predefinito di scansione in Linux) + Tesseract (progetto per riconoscimento OCR a linea di comando). Ecco la pagina dove ho trovato i passaggi da fare: http://linux.p2pforum.it/wiki/OCR_con_tesseract_in_XSane

Testato con successo in Ubuntu 8.10 (Intrepid Ibex).

Essenzialmente, bisogna anzitutto installare i pacchetti (io lo faccio con Synaptic…):

  • imagemagick
  • tesseract-ocr
  • tesseract-ocr-ita

Poi, scaricare lo script xsane2tess; io a questo punto ho modificato la riga 15 con: TEMP_DIR=/tmp/ , in modo da non dover creare una cartella temporanea sotto la home (va benissimo quella globale…), quindi la riga 74, dove c’è il comando che richiama tesseract, aggiungendo in fondo: -l ita , così da fargli usare il dizionario italiano.

Posizionare quindi il file in /usr/bin, dandogli i permessi di esecuzione; dalla shell si possono usare questi comandi:

  • chmod a+rx xsane2tess
  • sudo mv xsane2tess /usr/bin

Infine, aprire XSane, andare in Preferenze > Impostazioni > OCR, e impostare il campo “Comando OCR” con xsane2tess. La configurazione è così completata!

Per effettuare una scansione con riconoscimeno OCR, avviare XSane, selezionare la modalità “Visualizzatore“, e come profondità di colori “Binario“. Avviare la scansione (tasto Acquisisci), alla fine apparirà una finestra contenente la pagina, fare click sul secondo pulsante della barra in alto, con le lettere ABC DEF; scegliere il file TXT dove salvare il testo, e dopo aver confermato attendere pazientemente!

Non c’è che dire: un passo avanti per il mondo Linux, vista l’importanza in certi casi dell’OCR…

Categorie:Guide Tag:, , ,