Nous sommes le Ven 27 Juin, 2025 13:02
Supprimer les cookies

Page 1 sur 21, 2 SuivantBesoin d'un OCR pour Linux ?

Fil continu d'informations sur tout ce qui touche au libre, aux nouveautés et aux mises à jour majeures de logiciels libres. Merci de présenter toute news qui pointe vers un lien et de ne pas abuser des citations.

Jeu 24 Mai, 2007 13:40

Linux : il y a moins bien, mais c'est plus cher
http://libre-ouvert.toile-libre.org/
antistress

Messages : 3854
Géo : Ile de France

Jeu 24 Mai, 2007 16:41

Mais est ce que ça fonctionne avec un texte en français et avec les accents ?
La liberté consiste à faire tout ce qui ne nuit pas à autrui (Déclaration des Droits de l'Homme et du Citoyen)
BDR

Messages : 184
Géo : Avignon

Jeu 24 Mai, 2007 16:42

Article très intéressant. Rappelons au passage l'existence du logiciel Kooka qui s'interface très bien avec les différents modules d'OCR.
Tux, il a eu ton âme... Il aura ta femme !

Hadopi Hadoptée ? Et Haprès ?
kaneda_aka_tetsuoka

Avatar de l’utilisateur
Messages : 1749
Géo : Lille

Jeu 24 Mai, 2007 18:26

j'ai pas encore lu l'article!
Linux : il y a moins bien, mais c'est plus cher
http://libre-ouvert.toile-libre.org/
antistress

Messages : 3854
Géo : Ile de France

Jeu 24 Mai, 2007 20:34

Bon, j'ai fait un essai avec gocr, que je ne connaissais pas, à partir d'une page en pdf, passée en .ppm avec Gimp.

La page, c'est la 4 du Tigre du jour du jour: http://www.le-tigre.net/064.html (et aller jusqu'à la dernière page).



Extraits:


l;ngu;stes. L~ile de Saint-Barthélemy ou 44S_nt-Barth,> f_t Cela étant dit,
on peut distin_er dans _île au
Comment expliquer Pa_ie deS AntilleS. _une SuPerfi Cie de 21 hm_ moinS deuX
variétéS de CréoleS Se!on leS quar-
u,une populai;on de elle est située entre Saint-Ma_in et Saint-_tts tiers du
secteur 44Au Vent,> : le 44créole pur,> (ap-


Mais j'ai eu le sentiment que les trois colonnes le perturbait. J'ai donc isolé la colonne de milieu, et voici le résultat:

L~ile de Saint-Barthélemy ou 44S_nt-Barth>> f_t
partie des Antilles. _une superficie de 21 hm2,
elle est située entre Saint-Martin et Saint-_tts
au sud-ouest, et Barbuda au sud-est. S_nt-Barth
est à 25 hm à _est de Saint-Martin et à 200 hm
au nord-ouest de la Guadeloupe. La principale
ville de Saint-Barth est Gustavia, la capitale.
Le statut de Saint-Barthélemy est en voie de
devenir en 2007 une collectivité _outre-mer
indépendante du département _outre-mer de
la Guadeloupe.
Cest une 44île de Blancs>> habitée en majo_té par
les descendants de colons normands, bretons,
poite_ns, s_ntonge_s, etc., la plupart oriġn_res
de _île de Saint-Christophe, alors que celle-ci
était encore une possession francaise. On y
compte aussi un nombre important de métro-
polit_ns et quelques cent_nes _étrangers, dont
des Améric_ns. Les Yoirs y sont très minori-
taires et concentrés à Gustavia.
Il existe deux zones géo_aphiques distinctes: à
_ouest, _est le secteur 44Sous le Vent>> (in-
cluant Gustavia), à _est, le secteur 44Au Vent>>,
avec des populations à peu près équivalentes:
51,3 go à _ouest et 48,7 go à _est.
Le 44patois>>, lan_e maternelle du tiers des S_nt-
Barths, contient de nombreux mots emprun-
tés au franc_s popul_re parlé par les marins et
les pêcheurs des xvlle et xvrlle siècles. Par
exemple 4qbouline>> pour régate, 4qébreuiller>> pour
éviscérer. Les insul_res ont aussi emprunté
des mots à _anglais (44bot>> de boat: bateau;
44waya>> de wire: fil de fer) en raison de leurs
relations commerciales avec les îles voisines
anglophones. Mais le patois de S_nt-Barth _est
pas homogène et il __ere légèrement selon les
divers quartiers de _île. Par exemple: 4c_est
rnon rnari>> peut se dire 4csé rnon rnari>> ou 4csé
rnon norne>> ou encore en patois créolisé 4ci sé
_a _aM-_WeM>> OU 4cS éMO_e_O iM>>.
Les Saint-Barths parlent aussi le créole, et ce
ne sont pas les Yoirs qui _utilisent, mais bien
la population blanche. Historiquement, le patois
et le créole proviennent du même francais
populaire oral des colons _origine. Jusque
vers les années 1770, tous les Saint-Barths
parlaient ce francais qui _est ensuite frag-
menté en deux parlers: le patois dans la zone
44Sous le Vent>> et le créole dans la zone 44Au
Vent>>. Ces deux idiomes partagent un lexique
commun, une phonétique quasi identique, mais
ils difrerent par leur morpholoġe et leur syn-
taxe. Pour les familiers des créoles, celui de
Saint-Barthélemy est relativement similaire au
créole martiniquais, ce qui _exclut pas cer-
taines différences parfois importantes.


Ce n'est pas si mal. En revanche, gocr semble devenir fou face à l'italique, ce qui est un peu embêtant.
bengale2005

Messages : 339
Géo : www.le-tigre.net

Jeu 24 Mai, 2007 20:42

Salut

Intéressant de voir d'autres produits- dont certains étaient déjà sur ce fil de discussion


notamment le coupe kooka - ocrad (plutôt que gorc) - je n'ai juste pas trouver comment conserver la référence au dictionnaire français entre deux utilisations
La connaissance s'accroît lorsqu'on la partage
alaingre

Messages : 1192
Géo : http://brenta.free.fr

Jeu 24 Mai, 2007 21:32

Visiblement le plus performant serait tessaract, mais pas couplable avec kooka pour l'instant.

Dommage, car les résultats (avec gocr ou avec ocrad) sont pas formidables, enfin le temps de correction est plutôt long (pratiquement aussi long que de tout retaper quand est est assez bon en dactylo).
Je vais essayer tesseract dès que j'aurais le temps, en ligne de commande (soupir...)

L'OCR est encre un peu faiblichon sous linux, il faut bien l'avouer...
korova08

Messages : 1114
Géo : Ardennes (08)

Jeu 24 Mai, 2007 21:47

Bon, du coup j'ai tenté ocrad (avec kooka, que je ne connaissais pas, en effet c'est plus cool qu'en ligne de commande...)

Voici le résultat:

L'île de Saint-Bakhélemy ou <<Saint-Bakhl) fait
pakie des Antilles. D'une superficie de 21 km',
elle est située entre Saint-Makin et Saint-ISitts
au sud-ouest, et Barbuda au sud-est. Saint-Barth
est à 25 km à l'est de Saint-Martin et à 200 km
au nord-ouest de la Guadeloupe. La principale
ville de Saint-Barth est Gustavia, la capitale.
Le statut de Saint-Barthélemy est en voie de
devenir en 200T une collectivité d'outre-mer
indépendante du département d'outre-mer de
la Guadeloupe.
C'est une <<île de Blancsl) habitée en majorité par
les descendants de colons normands, bretons,
poiteÑns, saintongeais, etc., la plupak originaires
de l'île de Saint-Christophe, alors que celle-ci
était encore une possession française. On y
compte aussi un nombre important de métro-
politains et quelques centaines d'étrangers, dont
des Américains. Les Noirs y sont très minori-
taires et concentrés à Gustavia.
Il existe deux zones géographiques distinctes: à
l'ouest, c'est le secteur <<Sous le Ventl) (in-
cluant Gustavia), à l'est, le secteur <<Au Ventl),
avec des populations à peu près équivalentes:
51,3 % à l'ouest et 48,T % à l'est.
Le <<patoisl), langue maternelle du tiers des Saint-
Barths, contient de nombreux mots emprun-
tés au français populaire parlé par les marins et
les pêcheurs des XVIIe et XNIIe siècles. Par
exemple bowineTT pour régate, ébrewierTT pour
éviscérer. Les insulaires ont aussi emprunté
des mots à l'anglais (<<botl) de boat: bateau;
<<wayal) de wire: fil de fer) en raison de leurs
relations commerciales avec les îles voisines
anglophones. Mais le patois de Saint-Bakh n'est
pas homogène et il dre légèrement selon les
divers quakiers de l'île. Par exemple: <c'est
mon mari>l peut se dire <sé mon mari>l ou <sé
mon nome>l ou encore en patois créolisé <i sé
mari an-mwen>l ou <sé nome moin>l.
Les Saint-Barths parlent aussi le créole, et ce
ne sont pas les Noirs qui l'utilisent, mais bien
la population blanche. Historiquement, le patois
et le créole proviennent du même français
populaire oral des colons d'origine. Jusque
vers les années ITTO, tous les Saint-Barths
parlaient ce français qui s'est ensuite frag-
menté en deux parlers: le patois dans la zone
<<Sous le Ventl) et le créole dans la zone <<Au
Ventl). Ces deux idiomes partagent un lexique
commun, une phonétique quasi identique, mais
ils difrerent par leur morphologie et leur syn-
taxe. Pour les familiers des créoles, celui de
Saint-Barthélemy est relativement similaire au
créole martiniquais, ce qui n'exclut pas cer-
taines dinérences parfois importantes.


Vachement mieux! Je vais essayer de tester tesseract (avec un e et pas un a ;) )
bengale2005

Messages : 339
Géo : www.le-tigre.net

Jeu 24 Mai, 2007 22:41

Kooka fonctionne plutôt bien mais il faut que la résolution soit importante. Par contre, j'ai eu en effet quelques soucis avec les accents pour le français. Il y a une méthode pour optimiser tout cela, mais je ne l'ai pas trouvé à l'époque où j'ai utilisé le logiciel.
Tux, il a eu ton âme... Il aura ta femme !

Hadopi Hadoptée ? Et Haprès ?
kaneda_aka_tetsuoka

Avatar de l’utilisateur
Messages : 1749
Géo : Lille

Jeu 24 Mai, 2007 22:47

Alors je viens de faire un petit test avec kooka et ocrad. Sur un petit texte que j'avais exporté en pdf, puis mis en tif avec GIMP... Aucune erreur ! :D Même les lettres avec les accents et tout et tout ! Plaisant...

Pour info, j'ai enregistrée l'image en 300 dpi.
Quand tout le reste a échoué, lisez le mode d'emploi.
yostral

Avatar de l’utilisateur
Messages : 5403
Géo : Là-haut dans la montagne...

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit