OCR open source grâce a google !

Tagged:

J'ai lu ce midi que google avait après un certain nombre de turpitude récupéré et adapté le code d'un OCR fait par HP il y a un moment !

Je me dit que ça pouvait être sympa d'essayer !

Download du fichier tar.gz puis j'ouvre une console :

cd Desktop
tar -zxvf tesseract-1.01.tar.gz
cd tesseract-1.01
./configure
make
ln -s ccmain/tesseract

(il y avait un soucis le tesseract n'était pas au bon endroit donc le ln comble le soucis !)

Je fais une copie d'écran d'une doc (au hazard le java tutorial en version PDF) que voici :

A ma grande surprise tessera ne reconnait ni png ni jpg ... donc convertion en bmp oblige !

ensuite :

./tessera ~/Desktop/screenshot.bmp test

Et voici ce que ça me génère !

ms gdtt mew ga |
|     2     at tau   sum      :
Copyright O 2006 Stm Mrcrosystems, Inc., 4150 Network Circle, Santa Clara, California 95054. U.S.A.
All rrghts reserved.U.S. Government Rights 7 Commercial software. Government users are subject to the
Sun Mrcrosystems. Inc. standard license agreement and applicable provrsions of the FAR and its supple?
ments.
This distribution may include materials developed by thrrd partres.
Sun. Sun Microsystems. the Stm logo. Java, .IavaBeans, .IavaServer, .IavaServer Pages. Enterprise
.IavaBeans, lava Naming and Directory Interface. .IavaMai}. JDBC. EJB, JSP, .I2I-IE. JZSE, "Write Once.
Run Auywhereu. and the Java Coffee Cup logo are trademarks or registered trademarks of Stm Microsyse
tents. Inc. in the U.S. and othercountries.
Unless otherwise licensed. software code rn all technical materials herein (includmg articles, FAQs, san]?
ples) is provrded underthis Lrcense.
Products covered by and information contained in this service manual are controlled by U.S. Export Con?
trol laws and maybe subject to the export or import laws rn other countries. Nuclear, mrssrle. chemical
biological weapons or nuclear maritime end uses or end users. whether drrect or indirect. are strictly pro?
hibited. Export or reexport to countries subject to U.S. embargo or to entrties rdemitied on U.S. export
exclusron lusts. includmg. but not limited to, the demed persons and specially designated nationals Irsts is
strictly prohibrted.
DOCUMENTATION IS PROVIDED "AS IS" AND ALL EXPRESS OR IMPLIED CONDITIONS.
REPRESENTATIONS AND WARRANTIES. INCLUDING ANY IMPLIED WARRANTY OF MERY
CI-IANTABILITY. FITNESS FOR A PARTICULAR PURPOSE OR NONYINFRINGEMENT. ARE
DISCLAIMED, EXCEPT TO TI-IE EXTENT TI-IAT SUCH DISCLAIMERS ARE I-IELD TO BE
LEGALLY INVALID.
Copyright C zoott sun Mtcmsystetns. Inch 4tso Network circle. santa Clam. california 95054, time
Unis. Tous droits reserves.
Droits du gouvernement americain. utlisateurs gouvernmentaux 7 logicrel commercral. Les utilisateurs
|^~R.||^~R. MM. |^~R.| | | | |^~R. MMIMI A. a|^~R. Mt:|^~RF....|^~R^ | | ||^~R. |
|                  II

Plutot pas dégueu comme résultat ! Voila plus qu'a prévoir un plugin Gimp, on selectionne une partie, ça convertit en bitmap et ça sort du texte ! cool =)

Comments

ça serait pas mal en plugin xsane, aussi, voir même direct dans nautilus!

$ ./tesseract ~/screenshot.bmp test
Erreur de segmentation

arf ! ça vient peut être d'une incompatibilité avec mon architechture (ppc)

Es-ce que tu as essayer avec un texte en français ?
Quand j'avais essayer des OCR opensource j'avais de gros problème avec les accents.

CU et merci.

0_o BMP ?! Vous avez dit BMP ? Comme c'est BMP ...
$ ./tesseract Capture.bmp capture
$ Capture.bmp: Not a TIFF file, bad magic number 19778 (0x4d42).

Le fichier README indique effectivement d'utiliser en entrée des fichiers au format tiff. Ca fonctionne bien avec l'image de test disponible avec les sources.

Par la suite, j'ai fait une copie d'écran d'une page web, isolé la portion de texte à reconnaître, j'enregistre en Tiff et hop !
Résultat : Echec total. :-/

Pour info, j'ai essayé de lire le corps de cet article de formats-ouverts.org

Après compilation, j'exécute tesserac comme ceci:

./tesseract ~/Desktop/wikipedia.bmp

Et j'obtiens comme erreur:

./tesseract:Error:Usage:./tesseract imagename outputbase [configfile [[+|-]varfile]...]

Aucune idée de ce que ça peut vouloir dire.

wikipedia.bmp est un screenshot d'un texte en anglais. Le bmp a été créé à partir de ksnapshot (sous KDE).

Il y a GOCR aussi :
http://jocr.sourceforge.net/
(d'ailleur je comprends pas pourquoi dans l'url c'est un j et pas un g...)
Et est disponible en paquet.

Juste un petit commentaire:
il faut faire make et non ./make

Pas dégueu??

J'ai eu affaire à un OCR sous Windows qui était quasiment parfait, et sous Ubuntu en testant le couple xsane/gocr j'avais un résultat comme ce qui est montré ici et j'ai trouvé ça très moyen!

N'y a-t-il donc pas d'ocr à la hauteur sous linux pour que des réusltats comme ceux montrés soient considérés comme bons?

Ohlala plein de commentaires ... =)

Sarge > J'ai pas essayé de texte en français mais si j'ai le temps aujourdhui je teste !

Yann_L > il ne suffit pas d'enregistrer avec l'extension tiff ... le truc qui prend les screenshots enregistre en png ! Ouvre le avec gimp tu fais enregistrer sous et hop en bmp et ça marche !

Dany Dubé > Pourtant le message est très clair ... on te demande 2 paramètres, le nom de l'image et le nom de l'output ... tu rentres simplement le nom de l'image ...
tape voir ./tesseract monImage.bmp monOutput pour voir !

Poischack > Merci c'est corrigé ! désolé =)

YS > L'OCR c'est un métier ... des gens qui en vivent créent forcément quelque chose de plus concret 8h par jour que des gens qui font ça en bénévole de temps en temps ! Enfin Je trouve ça sympa quand même =)

J'étais curieux de tester ce programme d'OCR pour mon papa qui n'est pas 100% satisfait de Gocr, mais je n'ai pas réussi à "l'intégrer" dans Xsane...

Si quelqu'un a une astuce :)

Pitilezard > merci mais je sais encore convertir des images ;-)
Pour être plus précis, le deuxième échec que je décrivais (le premier étant de ton fait :-p)
est un échec total de la qualité de lecture.
Mon fichier tiff a bien été mouliné par tesseract mais rien (ou presque) n'a été reconnu.

Si certains veulent retenter ma manip', qu'ils y aillent. Je suis curieux de voir si le pépin se reproduit.

Yann_L > Il y a plein de gens qui ne savent pas et c'est pour ça que je précisais =)

J'ai pas testé de façon approfondi pour l'instant donc j'en suis satisfait pour les 3 tests que j'ai fait !

calimarno > Pour l'instant il fonctionne en le compilant et pas toujours très bien ... il va falloir attendre un peu pour les intégration avec autres logiciels =)

Quand, avant d'enregistrer en BMP, on passe un flou gaussien dans The GIMP, ça marche ???

Bon, je DL la tarball, et je sors

Cette note est déjà ancienne... Mais c'est la plus récente au sujet d'ocr sur BlogNote-Info.

Au cas où certains passent par là, je donne quelques éléments d'actualisation.

Avec d'abord un merci à PiTiLeZarD pour avoir fait part assez tôt de la nouveauté "Tesseract" dans ce billet.

Calimarno demandait : "J'étais curieux de tester ce programme d'OCR pour mon papa qui n'est pas 100% satisfait de Gocr, mais je n'ai pas réussi à "l'intégrer" dans Xsane...

Si quelqu'un a une astuce :)"

Oui, maintenant, il y a une astuce :
http://doc.ubuntu-fr.org/xsane2tess

Et pour les autres outils d'ocr sous Linux : http://doc.ubuntu-fr.org/ocr