Recherche un OCR

Bonjour,
Sous Windows, j'utilise OmniPage Pro et j'en suis globalement satisfait.
Avant de franchir le pas de ma migration vers Ubuntu, je recherche les logiciels offrant les fonctionnalites dont je me sers couramment. En l'occurrence, un OCR pour reconnaitre textes et tableaux scannes.
Merci de vos suggestions

En continuant a farfouiller dans le forum, j'ai trouve un message poste de mars 2004, signe Alaingre, qui dit:

[en substance, il n'y a quasiment rien de valable en logiciels libres...]

J'en ai pourtant trouvé un (qui intéresse Google également)
http://www.linux.com/article.pl?sid=06/09/18/191251

Les sources sont disponibles http://sourceforge.net/projects/tesseract-ocr

Peut-etre y a-t-il mieux depuis? Ma migration est freinee par cette recherche des logiciels, payants sous Windows, mais qui me rendent le service attendu.

Salut a tous

[hr]
Excusez l'absence d'accents. J'ai un QWERTY et le live CD Ubuntu ne sait pas les materialiser

Bonjour,

J'ai récemment installé Tesseract sous Ubuntu Dapper, puis Edgy. Je continue à l'utiliser, cela fonctionne très bien pour effectuer de l'OCR sur documents en langue anglaise, mais pas grand-chose à attendre pour d'autres langues à ma connaissance (sauf si j'ai raté quelque chose :?:

)

Quelques logiciels qui peuvent t'intéresser : http://www.linux-ocr.ekitap.gen.tr/

Pour ma part, j'utilise Kooka régulièrement et les résultats sont corrects.

aa37 a écrit:En continuant a farfouiller dans le forum, j'ai trouve un message poste de mars 2004, signe Alaingre, qui dit:
[en substance, il n'y a quasiment rien de valable en logiciels libres...]

Bonsoir

Mazette - mars 2004 c'était un ancêtre qui t'avait répondu :wink:

Merci à kaneda_aka_tetsuoka pour sa page linux

Une petite visite sur l'encyclopédie peut donner pas mal de pistes
http://fr.wikipedia.org/wiki/Reconnaiss ... t%C3%A8res

Personnellement je n'ai pas eut de bons résultats avec module GOCR de Kooka (mais Kooka est excellent)
Sur tesseract c'est du tout récent car les sources Tesseract-OCR ont libéré en août 2006 (Je passe sur le débat relatif à la licence Apache v2)

Une page qui faisait le point sur le sujet (en janvier dernier) http://www.newsforge.com/article.pl?sid ... 15/1848236
J'y ai appris qu'il existe tout de même des solutions propriétaires sous linux et puis tout récemment sur tessaract
http://www.linux.com/article.pl?sid=06/09/18/191251

Pour du concret J'ai testé la version tesseract-1.02 (et pas encore trouver la version gratuite de google qui existerait en anglais ?) .
J'ai donc installé à partir des sources http://sourceforge.net/projects/tesseract-ocr

(mais si quelqu'un pouvait nous compiler un petit paquet deb ce serait bien sympa ou mieux nous faire autopackage)

Pour l'installation sous ubuntu je me suis servi des indications disponibles sur cette page
http://www.blognote-info.com/index.php? ... e-a-google

La première fois que j'ai lancé la commande make il me manquait un paquet pour compiler correctement les sources à la lecture des logs j'ai compris qu'il manquait c++ (et j'ai donc installé le paquet) et l'installation s'est achevée.

Pour passer à la pratique j'ai fait une capture sur un document pdf (avec l'outil de sélection d'acrobat) et je l'ai coller dans Gimp pour l'enregistrer au format tif.

La syntaxe d'un commande pour transformer le fichier roc.tif en en un ficher texte nommé roc est simple :

./tesseract roc.tif roc

Tesseract Open Source OCR Engine
Image has 24 bits per pixel and size (1114,754)
Resolution=72

Le premier résultat est vraiment prometteur >> http://brenta.free.fr/IMG/txt/roc.txt

Par rapport à l'original http://fr.openoffice.org/Marketing/mate ... e_cnam.pdf on constate tout de même la disparition de l'accentuation ( ça va faire tourner le correcteur d'orthographe d'OOo)

OCR pour reconnaitre textes et tableaux scannes.

Donc pour le texte c'est pas mal mais malheureusement cela va "coincer" pour une mise en page en colonne
(confirmé dans un des articles ) ou pour les tableaux -

Un ami avait également fait un test concluant

Je viens de tester la même page que toi
http://emmanuelfavrenicolin.free.fr/Pub ... st/roc.tif
http://emmanuelfavrenicolin.free.fr/Pub ... st/roc.txt

En plus tesseract accept les tifs compressé avec lzw sur mon installation. C'est plus léger.

Évidemment tesseract doit être programmé seulement pour l'Anglais c'est pour ça qu'il ne reconnais pas les accents et qu'il ne reconnait pas les "le" et écrit "ie". Il faudrait voir comment c'est codé, la partie reconnaissance de syllabes ou mots est importante, je ne sais pas comment ça marche.
Il peut aussi avoir un module qui reconnait les langues des documents ce qui permet d'aider le logiciel dans sa décision, enfin j'y connaît pas grand chose. Je crois que j'avais lu un article sur kat ou beagle qui parle de ça.

Ah si, j'ai retrouvé! KTools_Kat.pdf

je crois que c'est là :

http://www.linux-magazine.com/issue/62/KTools_Kat.pdf

Bonsoir

J'apporte quelques précisions sur mon précédent post

Voila comment j'ai pu changé d'opinion sur kooka

Avec Kooka j'avais des résultats décevant (même en utilisant l' option de numérisation lineart et du noir et blanc comme cela normalement conseillé)

Voila le genre de chose à laquelle j'arrivais (je laisse sous forme d'image)

Mais dans les options de kooka on peut choisir d'utiliser le moteur ocrad

Le résultat et nettement meilleur !

Et l'accentuation a été respectée

Et chose intéressante - il est possible d'activer la reconnaissance des colonnes (ou disposition complète du texte)

Et ça marche

voici le résultat d'un ocr sur deux colonnes

2.2. Concernant la Woody, elle sera nommée, soit 2.3, soit 3.0,
la décision n'est pas encore prise.

Aucune date de sortie n'est encore annoncée car, contrairement
aux distributions commerciales, la Debian ne souffre pas de plan-
ning astreignant : une nouvelle distribution ne sort pas lorsque le
service marketing |'a décidé, mais lorsqu'elle est prête ! Par prête,
il faut entendre "exempte de bugs" et "conforme aux buts fixés".
Pour la woody, les buts fixés sont (sans ordre précis) :

Refonte totale du jeu de disquettes d'installation
. Kernel (Noyau) version 2.4
. GlibC (Llibrairie c standard) version 2.2
. GCC (Compilateur c) version 3.0
. XFree86 (Interface graphique) version 4.0
. Perl (Langage de script) version 5.6
A |'heure où nous écrivons ces lignes, le noyau 2.4 n'est pas
encore sorti, de même que gcc 3.0 (version atuelle 2.95.2). Les
autres buts sont déjà atteints (glibc 2.2, xfree 4.0.1, perl 5.6.0),
restent à corriger les bugs.

Les grandes nouveautés de la Woody ont déjà été exposées
brièvement ci-dessus (kernel Z.4, glibc 2.2, wfree 4.0...). Voyons
donc le reste.

(le texte de la seconde colonne s'est ajouter à la suite )

Le nouveau sy5tème d'impression CUPS (pour "Common Unix
Printing System") a également fa¡t son apparition. Beaucoup plus
facile à administrer et à gérer, il va satisfaire tous ceux qui ont
passé des nuits blanches sur le fichier /etc/printcap - et ils sont
nombreux ! CUPS reste, bien entendu, compatible avec |'ancien
système d'impression de type BSD, les commandes basiques
comme "lpr" se voyant redirigées vers le serveur CUPS : il faudra,
pour cela, avoir installé le package "cupsys-bsd".

De nouveaux outils d'administration sont ajoutés à cette nouvelle
mouture. Par exemple, "deborphan" se propose de |¡ster tous les
packages dont aucun autre package ne dépend. Ainsi, rechercher
et supprimer les package5 inutiles deviennent un jeu d'enfant !
Autre exemple : auto-apt. Ce package ne propose rien de moins
que d'installer automatiquement les packages dont vous avez
beso¡n ! Exemple : imaginons que vous n'ayez pas installé xmms.
Si auto-apt est installé et lancé, il vous suffit de taper "xmms" sur
la ligne de commande pour que |'installation du package xmms
vous soit proposée... Et cela ne fonrtionne pas uniquement avec
les programmes, mais avec n'importe quel fichier auquel vous
tentez d'accéder, si celui-ci est connu comme appartenant à un
package quelconque ! Il faut admettre que c'est tout bonnement
génial. C'est grâce à ce genre d'innovation que la Debian possède
cette réputation, bien méritée d'ailleurs, de "paradis des adminis-

Encore mieux on peut activer la vérification de l'orthographe pour valider le résultats de la roc

Au final (si l'on ne corrige rien les mots inconnus ressortent sous une autre couleur !! )

PS J'ai pris ces options sur l'encodage et le dictionnaire mais je n'ai pas trouvé comment les conserver par défaut
Si quelqu'un avait un tuyau ?

Bonjour,

Faire un bon système de reconnaissance est apparemment une tâche difficile.

Quand je dois en faire (textes plurilingues, mise en page assez respectée et convivialité d'emploi) je reste sous Windows et j'utilise FineReader, qui me paraît meilleur que ReadIris (pourtant très correct) et nettement meilleur qu'OmniPage. Les trois sont... des logiciels commerciaux.

Chez Abby, le producteur de FineReader, ils développent une version Linux :
http://france.abbyy.com/sdk/?param=62703

C'est probablement ce qui est le plus performant en ce moment sous Linux.

Les systèmes libres ne m'on pas convaincu jusqu'ici. On n'est pas du tout dans la situation de Firefox vs Explorer ou OpenOffice vs MS Office !

Clara OCR semblait prometteur il y a quelques années, mais son développement paraît stopé.
Souhaitons bonne chance à Kooka !

Vu l'ampleur de la tâche, la dispersion des compétences et des efforts en OCR libre est une très mauvaise chose.

Bonne journée

Jean-François

Salut Jean-François

J'ai aussi répéré ce SDK chez ABBY, j'utilise aussi finereader 8.0 pro qui est irremplaçable pour moi.
Je scanne des vieux bouquin d'histoire, et il me prend tout à 99,9 %...génial.

J'ai posté une demande d'info chez MANDRIVA :

http://forum.club.mandriva.com/viewtopic.php?t=59724

je ne sais pas quoi penser...
c'est vrai qu'ils pourraient developper eux-même le logiciel.

Sinon, je suis demandeur aussi...créer une fondation pour développer ce logiciel...
en tout cas, c'est lui qui me bloque sous XP

désolé de me répondre à moi même...

Il y a un sdk linux chez ABBY en version d'essai gratuite.
personnellement, je ne suis pas capable d'en faire quoi que ce soit...

je serais intéressé par l'aventure avec qqn capable d'exploiter ce SDK
que peux-t'on en faire, peux-t'on acheter la license et l'offrir en GPL....ce srerait éventuellement mon but..

mais avant tout savoir ce qu'on peux faire avec ce sdk...et ensuite parler bizness avec ABBY :twisted:

ABBY fine reader est vraiment un logiciel exceptionnel, faut vraiment les encourager à faire un e version linux...même pas libre :twisted:

Se connecter

Recherche un OCR

Qui est en ligne ?