en partant d'une bête copie d'écran d'un livre google, enregistrée en .png :
- ouverture avec The Gimp, désaturation pour "mover" certains textes bleus vers du gris foncé
- resize de l'image (en fait, juste la définition, 72 --> 300 dpi)
- export en .tif sans compression
puis
tesseract fichier.tif fichier.txt et c'est tout bon ; les textes bleus ont eu un peu de mal, normal, ils étaient aussi soulignés (liens html vers figures --> 3 corrections, 10 secondes et voilà)
Attention : pas mal de virgules ont été transformées en points, et un mot bien récupéré sur une ligne a cafouillé sur une autre ("reconstruction")
Partager