<![CDATA[Andesi - forum / Tesseract how-to...]> 2007-11-26T09:00:23Z FluxBB http://forum.andesi.org/viewtopic.php?id=6204 <![CDATA[Réponse à : Tesseract how-to...]> Peut-être korova pourrait tu nous faire parvenir un de tes fichiers pour qu'on puisse tester sur nos bécanes. Ou bien des tiff créés de la même manière dans l'hypothèse où ces documents soient Top-Secret.

Ça permettrais d'éliminer certains problème possibles.

]>
http://forum.andesi.org/profile.php?id=2078 2007-11-26T09:00:23Z http://forum.andesi.org/viewtopic.php?pid=55600#p55600
<![CDATA[Réponse à : Tesseract how-to...]> Bon, je viens d'essayer ... ça marche pas trop mal (surtout quand on scanne l'original dans le bon sens ... sinon, ça marche moins bien ...)
Reste à trouver les bons paramètres de luminosité / contraste pour améliorer la détection (qui prend apparemment mal en compte les accents)

J'ai testé tout ça avec la dernière version de xsane / tesseract dispo en unstable ...

]>
http://forum.andesi.org/profile.php?id=425 2007-11-24T12:39:34Z http://forum.andesi.org/viewtopic.php?pid=55589#p55589
<![CDATA[Réponse à : Tesseract how-to...]> Moui, enfin la vitesse TGV, c'est uniquement de Reims à Paris, entre Reims et Charleville, c'est vitesse normale, hein...
Quant à vendre mes BD................... JAMAIS !

Et le billet de TGV n'est pas donné donné (perte de pouvoir d'achat des fonctionnaires, toussa....), et le dernier TGV est bien trop tôt pour une Andébière, ce qui ne résout toujours pas mon problème principal : l'hébergement sur Paris.

Korova complètement écroulée

]>
http://forum.andesi.org/profile.php?id=564 2007-11-22T17:51:13Z http://forum.andesi.org/viewtopic.php?pid=55566#p55566
<![CDATA[Réponse à : Tesseract how-to...]> Korova a écrit :

Korova croulant sous les copies

Bonne idée, le scanner pour corriger les QCM. Ce sera pour la prochaine fois...  wink


J'ai eu une pub de la SNCF l'aut'fois dans le métro (du temps ou il fonctionnait encore). Ils affirmaient que grâce au TGV, on pouvait venir rapidement de ton coin à Paris. Plus d'excuses pour la prochaine Andébière (suffit de vendre quelques Kg de BD).

Armen déjà dehors (fait pas chaud ...)

]>
http://forum.andesi.org/profile.php?id=440 2007-11-22T16:01:53Z http://forum.andesi.org/viewtopic.php?pid=55565#p55565
<![CDATA[Réponse à : Tesseract how-to...]> armen a écrit :

Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé tongue ).

Oula, les tifs sont coupés depuis un bon p'tit bout de temps maintenant (le sieur Ledub peut témoigner)

Quant à mes formats tif, je ne sais pas ce qui ne va pas, ils sont en niveau de gris et pas compressés. À suivre, car là j'ai des copies à corriger (l'arrêt des notes est demain, ça urge donc)

Korova croulant sous les copies

]>
http://forum.andesi.org/profile.php?id=564 2007-11-22T12:38:29Z http://forum.andesi.org/viewtopic.php?pid=55564#p55564
<![CDATA[Réponse à : Tesseract how-to...]> Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé tongue ).

]>
http://forum.andesi.org/profile.php?id=440 2007-11-22T12:20:29Z http://forum.andesi.org/viewtopic.php?pid=55563#p55563
<![CDATA[Réponse à : Tesseract how-to...]> Bon, j'ai essayé avec un fichier d'exemple, et là j'ai eu un fichier avec quelque chose dedans. Ça doit être mes tiff qui lui plaisent pas (crotte !)

N'empêche que s'il y avait des messages quelconques (de la part du logiciel), ça m'aiderait à y voir plus clair

Korova pas en grève... parce que le mardi elle ne va jamais au lycée !

]>
http://forum.andesi.org/profile.php?id=564 2007-11-20T15:14:36Z http://forum.andesi.org/viewtopic.php?pid=55562#p55562
<![CDATA[Réponse à : Tesseract how-to...]> Zut, j'm'a fait grillé par Thiz !!
Mais j'ajoute qu'il existe ces deux fichiers : Source training data for French et French language data for Tesseract (2.00 and up).

LeDub qui fait des copier/coller sans trop chercher à comprendre wink

[edit]Correction de faute d'orthographe[/edit]

]>
http://forum.andesi.org/profile.php?id=47 2007-11-20T11:47:28Z http://forum.andesi.org/viewtopic.php?pid=55561#p55561
<![CDATA[Réponse à : Tesseract how-to...]> Il semble que cela devrait fonctionner avec les texte en français comme l'indique le site du projet : http://code.google.com/p/tesseract-ocr/

Version 2.00 is now available and contains the following new features:

    * Support for English, French, Italian, German, Spanish, Dutch
    * Scripts to test accuracy against the original 1995 tests run by UNLV (see TestingTesseract)
    * Ability to train in other languages and scripts (see TrainingTesseract)

Est ce que tu as essayer de le faire fonctionner avec les fichiers exemple qui sont dans le tarball du site ?

http://tesseract-ocr.googlecode.com/fil … .01.tar.gz

]>
http://forum.andesi.org/profile.php?id=2078 2007-11-20T11:36:50Z http://forum.andesi.org/viewtopic.php?pid=55560#p55560
<![CDATA[Réponse à : Tesseract how-to...]> Sur cette page de www.linux.com, on peut lire quelques limitations concernant le fichier TIFF initial :

Nathan Willis a écrit :

Currently, Tesseract recognizes only English and works only on TIFF files (black and white, 8-bit greyscale, and 24-bit color; no compression). Also, it can generate output only in the US-ASCII character set, so glyphs with accent marks or other unsupported attributes will probably be reproduced incorrectly.

L'article date de septembre 2006, j'imagine que depuis, ils ont ajouté le support du français. Mais c'est peut être ton fichier d'entrée qui n'est pas au bon format.

Armen, espérant ne pas avoir encombré le réseau inutilement wink

]>
http://forum.andesi.org/profile.php?id=440 2007-11-20T07:51:53Z http://forum.andesi.org/viewtopic.php?pid=55559#p55559
<![CDATA[Réponse à : Tesseract how-to...]> Hum...

Tesseract n'a pas l'air de mobiliser les foules...

tanpiche, je continuerai à taper mes textes avec mes gros doigts boudinés...

Korova qui remet l'essai de tesseract à plus tard

]>
http://forum.andesi.org/profile.php?id=564 2007-11-19T21:45:29Z http://forum.andesi.org/viewtopic.php?pid=55558#p55558
<![CDATA[Tesseract how-to...]> Salut les gens !

j'ai essayé d'utiliser tesseract pour faire de l'OCR, histoire de voir si ça marche mieux que gocr ou ocrad (on en dit du bien à divers endroits).

J'ai donc installé le paquet tesseract-ocr et le paquet tesseract-ocr-fre (histoire qu'il reconnaisse le français) en version 2.01 avec aptitude.

Après avoir lu la page de man (d'une brièveté déconcertante) et tâtonné un peu (pour réalisé qu'il ne veut que du tiff en entrée), les quelques essais de lancés me donnent... des fichiers parfaitement vides !
pourtant je me place dans le répertoire contenant mon image en tiff (scannée en niveau de gris à 200 dpi) et je lance

$ tesseract mon_image.tiff ma_sortie -l fra

ce qui semble correspondre à ce que j'ai lu en googlisant un peu.

Quelqu'un a une idée ?

Korova qui vient de se trouver un nouveau problème.

]>
http://forum.andesi.org/profile.php?id=564 2007-11-18T14:36:59Z http://forum.andesi.org/viewtopic.php?pid=55554#p55554