Tesserac ou l'OCR Open source

Bonjour

Les programmes de reconnaissance de caractères OCR sous licence libre ne sont pas légion
Mais ceux qui donnent de bons résultats sont encore plus rares (*)

J'en ai pourtant trouvé un (qui intéresse Google également)
http://www.linux.com/article.pl?sid=06/09/18/191251

Les sources sont disponibles http://sourceforge.net/projects/tesseract-ocr

Et j'ai pu l'installer sur mon ubuntu Edgy en suivant les indications de cette page

NB La premiere fois que j'ai lancer la commande make il me manquait un paquet pour compiler correctement les sources à la lecture des logs j'ai compris qu'il manquait c++ , je l'ai donc installé et l'installation s'est poursuivie jusqu'à son terme.

Les résultats sont bons pour une mise en page simple mais l'accentuation est perdue lors de la reconnaissance.

Mes questions :

1) Quelqu'un aurait t'il déjà fait un script pournautilus Actionpermettant de lancer automatiquement la conversion d'un fichier image (clic droit > convertir en texte)

2) Il me semble avoir lu que la version gratuite en anglais (pour windows ?) était distribuée par Google mais je ne l'ai pas trouvée ?
Sinon est il possible de compiler les sources pour que ce programme soit utilisable sous windows ? (même en ligne de commande comme sous linux)

(*) Kooka est excellent mais le module GOCR de Kooka s'avère très décevant (d'après mon expérience).

ce sont les même sources que tu compiles sous linux ou sous windows (avec Visual studio).

Pour l'instant le moteur d'OCR ne reconnait que les lettres de langue anglaise donc pas de reconnaissance des accents.

Et comme tu l'as dit, les résultats sont très satisfaisant sauf que le moteur d'OCR ne gère absolument aucune mise en page de documents (pas de détection de colonnes par exemple) donc il ne marche bien que sur des mise en page classiques. Esperont que cette fonctionnalité apparaisse vite.

Par contre, il y a beaucoup beaucoup plus de code

que pour les autres moteurs OCR libre comme gocr! bonjour la prise en main du truc...

Et pour info, c'était un moteur développé par HP il y a 10ans. Des personnes chez HP ont décidé de le libéré mais il y avait des parties non libérables. L'équipe de HP a donc demandé l'aide de Google (je crois que c'est parce que l'un des principaux developpeurs de ce moteur bosse maintenant chez Google) pour nettoyer et enlever les parties de code non libérables. Voilà pourquoi c'est Google qui libère un truc qui appartenait à ...HP

Se connecter

Tesserac ou l'OCR Open source

Qui est en ligne ?