Andesi - forum

Forum francophone pour Debian

Vous n'êtes pas identifié(e).

#1 18/11/2007 16:36:59

Korova
Membre
Lieu : Calvados (14)
Inscription : 26/05/2004
Messages : 1 916

Tesseract how-to...

Salut les gens !

j'ai essayé d'utiliser tesseract pour faire de l'OCR, histoire de voir si ça marche mieux que gocr ou ocrad (on en dit du bien à divers endroits).

J'ai donc installé le paquet tesseract-ocr et le paquet tesseract-ocr-fre (histoire qu'il reconnaisse le français) en version 2.01 avec aptitude.

Après avoir lu la page de man (d'une brièveté déconcertante) et tâtonné un peu (pour réalisé qu'il ne veut que du tiff en entrée), les quelques essais de lancés me donnent... des fichiers parfaitement vides !
pourtant je me place dans le répertoire contenant mon image en tiff (scannée en niveau de gris à 200 dpi) et je lance

$ tesseract mon_image.tiff ma_sortie -l fra

ce qui semble correspondre à ce que j'ai lu en googlisant un peu.

Quelqu'un a une idée ?

Korova qui vient de se trouver un nouveau problème.


Korova, aventurière (même pas peur) GNU/linux depuis 2003

Hors ligne

#2 19/11/2007 23:45:29

Korova
Membre
Lieu : Calvados (14)
Inscription : 26/05/2004
Messages : 1 916

Re : Tesseract how-to...

Hum...

Tesseract n'a pas l'air de mobiliser les foules...

tanpiche, je continuerai à taper mes textes avec mes gros doigts boudinés...

Korova qui remet l'essai de tesseract à plus tard


Korova, aventurière (même pas peur) GNU/linux depuis 2003

Hors ligne

#3 20/11/2007 09:51:53

armen
Membre
Lieu : 48°03'03" N - 04°59'55" W
Inscription : 09/03/2004
Messages : 1 937

Re : Tesseract how-to...

Sur cette page de www.linux.com, on peut lire quelques limitations concernant le fichier TIFF initial :

Nathan Willis a écrit :

Currently, Tesseract recognizes only English and works only on TIFF files (black and white, 8-bit greyscale, and 24-bit color; no compression). Also, it can generate output only in the US-ASCII character set, so glyphs with accent marks or other unsupported attributes will probably be reproduced incorrectly.

L'article date de septembre 2006, j'imagine que depuis, ils ont ajouté le support du français. Mais c'est peut être ton fichier d'entrée qui n'est pas au bon format.

Armen, espérant ne pas avoir encombré le réseau inutilement wink


"La grandeur d'un métier est peut-etre, avant tout, d'unir des hommes : il n'est qu'un luxe véritable, et c'est celui des relations humaines." Antoine de Saint-Exupéry

Hors ligne

#4 20/11/2007 13:36:50

Tihz
Membre
Lieu : Paname
Inscription : 02/11/2006
Messages : 876

Re : Tesseract how-to...

Il semble que cela devrait fonctionner avec les texte en français comme l'indique le site du projet : http://code.google.com/p/tesseract-ocr/

Version 2.00 is now available and contains the following new features:

    * Support for English, French, Italian, German, Spanish, Dutch
    * Scripts to test accuracy against the original 1995 tests run by UNLV (see TestingTesseract)
    * Ability to train in other languages and scripts (see TrainingTesseract)

Est ce que tu as essayer de le faire fonctionner avec les fichiers exemple qui sont dans le tarball du site ?

http://tesseract-ocr.googlecode.com/fil … .01.tar.gz


Ce qu'il y a de bien avec les standards, c'est qu'il y en a beaucoup entre lesquels choisir.

Hors ligne

#5 20/11/2007 13:47:28

ledub
Membre
Lieu : Creil (60)
Inscription : 22/04/2003
Messages : 4 545

Re : Tesseract how-to...

Zut, j'm'a fait grillé par Thiz !!
Mais j'ajoute qu'il existe ces deux fichiers : Source training data for French et French language data for Tesseract (2.00 and up).

LeDub qui fait des copier/coller sans trop chercher à comprendre wink

[edit]Correction de faute d'orthographe[/edit]

Dernière modification par ledub (20/11/2007 13:47:58)


« Ne doutez pas qu'un petit nombre de personnes déterminées puisse changer le monde. En fait, ça a même toujours marché comme ça.»
Margaret Mead
---
VeoSearch est un moteur de recherche solidaire qui permet de financer des projets associatifs de développement durable par vos recherches Internet. Utilisez-le !!!

Hors ligne

#6 20/11/2007 17:14:36

Korova
Membre
Lieu : Calvados (14)
Inscription : 26/05/2004
Messages : 1 916

Re : Tesseract how-to...

Bon, j'ai essayé avec un fichier d'exemple, et là j'ai eu un fichier avec quelque chose dedans. Ça doit être mes tiff qui lui plaisent pas (crotte !)

N'empêche que s'il y avait des messages quelconques (de la part du logiciel), ça m'aiderait à y voir plus clair

Korova pas en grève... parce que le mardi elle ne va jamais au lycée !


Korova, aventurière (même pas peur) GNU/linux depuis 2003

Hors ligne

#7 22/11/2007 14:20:29

armen
Membre
Lieu : 48°03'03" N - 04°59'55" W
Inscription : 09/03/2004
Messages : 1 937

Re : Tesseract how-to...

Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé tongue ).


"La grandeur d'un métier est peut-etre, avant tout, d'unir des hommes : il n'est qu'un luxe véritable, et c'est celui des relations humaines." Antoine de Saint-Exupéry

Hors ligne

#8 22/11/2007 14:38:29

Korova
Membre
Lieu : Calvados (14)
Inscription : 26/05/2004
Messages : 1 916

Re : Tesseract how-to...

armen a écrit :

Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé tongue ).

Oula, les tifs sont coupés depuis un bon p'tit bout de temps maintenant (le sieur Ledub peut témoigner)

Quant à mes formats tif, je ne sais pas ce qui ne va pas, ils sont en niveau de gris et pas compressés. À suivre, car là j'ai des copies à corriger (l'arrêt des notes est demain, ça urge donc)

Korova croulant sous les copies


Korova, aventurière (même pas peur) GNU/linux depuis 2003

Hors ligne

#9 22/11/2007 18:01:53

armen
Membre
Lieu : 48°03'03" N - 04°59'55" W
Inscription : 09/03/2004
Messages : 1 937

Re : Tesseract how-to...

Korova a écrit :

Korova croulant sous les copies

Bonne idée, le scanner pour corriger les QCM. Ce sera pour la prochaine fois...  wink


J'ai eu une pub de la SNCF l'aut'fois dans le métro (du temps ou il fonctionnait encore). Ils affirmaient que grâce au TGV, on pouvait venir rapidement de ton coin à Paris. Plus d'excuses pour la prochaine Andébière (suffit de vendre quelques Kg de BD).

Armen déjà dehors (fait pas chaud ...)


"La grandeur d'un métier est peut-etre, avant tout, d'unir des hommes : il n'est qu'un luxe véritable, et c'est celui des relations humaines." Antoine de Saint-Exupéry

Hors ligne

#10 22/11/2007 19:51:13

Korova
Membre
Lieu : Calvados (14)
Inscription : 26/05/2004
Messages : 1 916

Re : Tesseract how-to...

Moui, enfin la vitesse TGV, c'est uniquement de Reims à Paris, entre Reims et Charleville, c'est vitesse normale, hein...
Quant à vendre mes BD................... JAMAIS !

Et le billet de TGV n'est pas donné donné (perte de pouvoir d'achat des fonctionnaires, toussa....), et le dernier TGV est bien trop tôt pour une Andébière, ce qui ne résout toujours pas mon problème principal : l'hébergement sur Paris.

Korova complètement écroulée


Korova, aventurière (même pas peur) GNU/linux depuis 2003

Hors ligne

#11 24/11/2007 14:39:34

eLR!C
Membre
Lieu : Les Lilas
Inscription : 25/02/2004
Messages : 421
Site Web

Re : Tesseract how-to...

Bon, je viens d'essayer ... ça marche pas trop mal (surtout quand on scanne l'original dans le bon sens ... sinon, ça marche moins bien ...)
Reste à trouver les bons paramètres de luminosité / contraste pour améliorer la détection (qui prend apparemment mal en compte les accents)

J'ai testé tout ça avec la dernière version de xsane / tesseract dispo en unstable ...

Hors ligne

#12 26/11/2007 11:00:23

Tihz
Membre
Lieu : Paname
Inscription : 02/11/2006
Messages : 876

Re : Tesseract how-to...

Peut-être korova pourrait tu nous faire parvenir un de tes fichiers pour qu'on puisse tester sur nos bécanes. Ou bien des tiff créés de la même manière dans l'hypothèse où ces documents soient Top-Secret.

Ça permettrais d'éliminer certains problème possibles.


Ce qu'il y a de bien avec les standards, c'est qu'il y en a beaucoup entre lesquels choisir.

Hors ligne

Pied de page des forums