2007-11-26T09:00:23Z

Peut-être korova pourrait tu nous faire parvenir un de tes fichiers pour qu'on puisse tester sur nos bécanes. Ou bien des tiff créés de la même manière dans l'hypothèse où ces documents soient Top-Secret.

Ça permettrais d'éliminer certains problème possibles.

2007-11-24T12:39:34Z

Bon, je viens d'essayer ... ça marche pas trop mal (surtout quand on scanne l'original dans le bon sens ... sinon, ça marche moins bien ...)
Reste à trouver les bons paramètres de luminosité / contraste pour améliorer la détection (qui prend apparemment mal en compte les accents)

J'ai testé tout ça avec la dernière version de xsane / tesseract dispo en unstable ...

2007-11-22T17:51:13Z

Moui, enfin la vitesse TGV, c'est uniquement de Reims à Paris, entre Reims et Charleville, c'est vitesse normale, hein...
Quant à vendre mes BD................... JAMAIS !

Et le billet de TGV n'est pas donné donné (perte de pouvoir d'achat des fonctionnaires, toussa....), et le dernier TGV est bien trop tôt pour une Andébière, ce qui ne résout toujours pas mon problème principal : l'hébergement sur Paris.

Korova complètement écroulée

2007-11-22T16:01:53Z

Korova a écrit :

Korova croulant sous les copies

Bonne idée, le scanner pour corriger les QCM. Ce sera pour la prochaine fois...

J'ai eu une pub de la SNCF l'aut'fois dans le métro (du temps ou il fonctionnait encore). Ils affirmaient que grâce au TGV, on pouvait venir rapidement de ton coin à Paris. Plus d'excuses pour la prochaine Andébière (suffit de vendre quelques Kg de BD).

Armen déjà dehors (fait pas chaud ...)

2007-11-22T12:38:29Z

armen a écrit :

Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé ).

Oula, les tifs sont coupés depuis un bon p'tit bout de temps maintenant (le sieur Ledub peut témoigner)

Quant à mes formats tif, je ne sais pas ce qui ne va pas, ils sont en niveau de gris et pas compressés. À suivre, car là j'ai des copies à corriger (l'arrêt des notes est demain, ça urge donc)

Korova croulant sous les copies

2007-11-22T12:20:29Z

Si ce sont tes tifs qui vont pas tu n'as qu'à essayer de les réencoder ou regarder les paramètres du scanner (et non pas les couper, les tifs! Oups désolé ).

2007-11-20T15:14:36Z

Bon, j'ai essayé avec un fichier d'exemple, et là j'ai eu un fichier avec quelque chose dedans. Ça doit être mes tiff qui lui plaisent pas (crotte !)

N'empêche que s'il y avait des messages quelconques (de la part du logiciel), ça m'aiderait à y voir plus clair

Korova pas en grève... parce que le mardi elle ne va jamais au lycée !

2007-11-20T11:47:28Z

Zut, j'm'a fait grillé par Thiz !!
Mais j'ajoute qu'il existe ces deux fichiers : Source training data for French et French language data for Tesseract (2.00 and up).

LeDub qui fait des copier/coller sans trop chercher à comprendre

[edit]Correction de faute d'orthographe[/edit]

2007-11-20T11:36:50Z

Il semble que cela devrait fonctionner avec les texte en français comme l'indique le site du projet : http://code.google.com/p/tesseract-ocr/

Version 2.00 is now available and contains the following new features:
* Support for English, French, Italian, German, Spanish, Dutch
* Scripts to test accuracy against the original 1995 tests run by UNLV (see TestingTesseract)
* Ability to train in other languages and scripts (see TrainingTesseract)

Est ce que tu as essayer de le faire fonctionner avec les fichiers exemple qui sont dans le tarball du site ?

http://tesseract-ocr.googlecode.com/fil … .01.tar.gz

2007-11-20T07:51:53Z

Sur cette page de www.linux.com, on peut lire quelques limitations concernant le fichier TIFF initial :

Nathan Willis a écrit :

Currently, Tesseract recognizes only English and works only on TIFF files (black and white, 8-bit greyscale, and 24-bit color; no compression). Also, it can generate output only in the US-ASCII character set, so glyphs with accent marks or other unsupported attributes will probably be reproduced incorrectly.

L'article date de septembre 2006, j'imagine que depuis, ils ont ajouté le support du français. Mais c'est peut être ton fichier d'entrée qui n'est pas au bon format.

Armen, espérant ne pas avoir encombré le réseau inutilement

2007-11-19T21:45:29Z

Hum...

Tesseract n'a pas l'air de mobiliser les foules...

tanpiche, je continuerai à taper mes textes avec mes gros doigts boudinés...

Korova qui remet l'essai de tesseract à plus tard

2007-11-18T14:36:59Z

Salut les gens !

j'ai essayé d'utiliser tesseract pour faire de l'OCR, histoire de voir si ça marche mieux que gocr ou ocrad (on en dit du bien à divers endroits).

J'ai donc installé le paquet tesseract-ocr et le paquet tesseract-ocr-fre (histoire qu'il reconnaisse le français) en version 2.01 avec aptitude.

Après avoir lu la page de man (d'une brièveté déconcertante) et tâtonné un peu (pour réalisé qu'il ne veut que du tiff en entrée), les quelques essais de lancés me donnent... des fichiers parfaitement vides !
pourtant je me place dans le répertoire contenant mon image en tiff (scannée en niveau de gris à 200 dpi) et je lance

$ tesseract mon_image.tiff ma_sortie -l fra

ce qui semble correspondre à ce que j'ai lu en googlisant un peu.

Quelqu'un a une idée ?

Korova qui vient de se trouver un nouveau problème.