OCR avec Tesseract - Blogobe.fr
scan

OCR avec Tesseract

L’objectif :

Renommer des fichiers PDF en leur donnant un numéro inscrit dans le document (un numéro de facture en l’occurrence).

1. Convertir le PDF en TIFF (nécessite le paquet imagemagick)

convert -density 300 -depth 8 fichier.pdf fichier.tiff

 

2. Découper le morceau d’image qui contient le numéro de facture


convert fichier.tiff -crop 220×80+120+1200 numero.tiff

220 = largeur du rectangle de sélection
80 = hauteur du rectangle de sélection
120 = distance du bord gauche
1200 = distance du haut de l’image

3. Lire le numéro dans l’image découpée


tesseract numero.tiff numero -l fra

Pas d’extension sur le fichier de sortie, Tesseract ajoute automatiquement l’extension « .txt »

4. Renommer le fichier PDF avec son numéro.


mv fichier.pdf `more extrait.txt`.pdf

Reste plus qu’à scripter tout ça pour du traitement par lot, et injecter le tout dans OpenKM par exemple…

Edit :
Première ébauche du script


#!/bin/sh
for i in *.pdf;
do
convert -density 300 -depth 8 $i $i.tiff
convert $i.tiff -crop 240×80+120+1200 $i-crop.tiff
tesseract $i-crop.tiff $i
NUMFA=`sed -e 's/O/0/g' $i.txt`
mv $i $NUMFA.pdf
rm $i.tiff
rm $i-crop.tiff
rm $i.txt
done


You may also like...

2 Responses

  1. Flipflip dit :

    Si tes pdf contiennent de vrai texte et non une image encapsulé dans un fichier pdf, tu peux extraire le texte en ligne de commande… http://www.blogoflip.fr/article149/extraire-le-texte-et-les-images-d-un-fichier-pdf 😉

    • Obé dit :

      Je ne le précise pas effectivement, mais le pdf est un document numérisé, donc au format « image ». Dans un monde parfait, le document serait directement numérisé en TIFF, mais bon …

Laisser un commentaire