Les programmes de reconnaissance de caractères OCR sous licence libre ne sont pas légion
Mais ceux qui donnent de bons résultats sont encore plus rares (*)
J'en ai pourtant trouvé un (qui intéresse Google également)
http://www.linux.com/article.pl?sid=06/09/18/191251
Les sources sont disponibles http://sourceforge.net/projects/tesseract-ocr
Et j'ai pu l'installer sur mon ubuntu Edgy en suivant les indications de cette page
NB La premiere fois que j'ai lancer la commande make il me manquait un paquet pour compiler correctement les sources à la lecture des logs j'ai compris qu'il manquait c++ , je l'ai donc installé et l'installation s'est poursuivie jusqu'à son terme.
Les résultats sont bons pour une mise en page simple mais l'accentuation est perdue lors de la reconnaissance.
Mes questions :
1) Quelqu'un aurait t'il déjà fait un script pournautilus Actionpermettant de lancer automatiquement la conversion d'un fichier image (clic droit > convertir en texte)
2) Il me semble avoir lu que la version gratuite en anglais (pour windows ?) était distribuée par Google mais je ne l'ai pas trouvée ?
Sinon est il possible de compiler les sources pour que ce programme soit utilisable sous windows ? (même en ligne de commande comme sous linux)
(*) Kooka est excellent mais le module GOCR de Kooka s'avère très décevant (d'après mon expérience).
-
alaingre
- Messages : 1192
- Géo : http://brenta.free.fr