Nous sommes le Mer 25 Juin, 2025 21:19
Supprimer les cookies

Un OCR qui annalyserait mes images pour chercher dedans (?)

Pour une tâche précise, pour remplacer un logiciel propriétaire donné...

Lun 19 Oct, 2009 15:28

Bonjour,

Je souhaiterais virtualiser l'ensemble de mes documents administratif (banque, fiche de paie, et tant d'autres).
Je peux me mettre à la tâche de scanner mes documents, mais que faire après?

L'idée: pouvoir chercher des informations textuelles dans ces document.

Bref, un tâche qui travaillerait discrètement en arrière plan par exemple.

Je crois que vous saisissez l'idée générale.
Auriez vous des solutions ou des pistes? merci.
En raison de l'indifférence générale, demain est annulé.
A bon internautes, SloYvY
sloyvy

Messages : 555

Lun 19 Oct, 2009 20:18

Bonsoir,

Peux-tu être plus explicite dans le style d'information que tu veux retrouver dans un bulletin de paye ?

Cela m'intéresse !

Sinon un logiciel d'OCR, selon moi, classe le texte et les image séparément... et je ne pense pas qu'il puisse chercher dans les images (celles définies comme telles) du texte.

Cordialement.
Deleted121118

Lun 19 Oct, 2009 20:56

Dans une fiche de paie, certes, l'info est limitée: employeur et date par exemple.
L'idée est d'élargir ça aux simples factures edf, téléphone, etc. Contrat de bail, bref tout. Parfois de simples courrier, mais avec un "vrai texte" ,à analyser en ocr.

Pour la petite histoire :D je me prépare à démanger d'ici 2 ans dans un pays étranger. Je souhaite ne partir qu'avec une valise de vêtement. (et même essayer de partir sans ordinateur...gardant tout dans un espace privé). La quantité (le poid) de papier dont j'aurais besoin pour X raison est lourde. (certain document se garde 2, 5, 10, 20 ans ou à vie...)

Voila pour l'esprit de ce que je m'apprête à faire, et donc de mieux saisir le besoin.

Je pense que cette habitude se répendra d'ici 5/10ans. J'espere être "dans le coup"
En raison de l'indifférence générale, demain est annulé.
A bon internautes, SloYvY
sloyvy

Messages : 555

Lun 19 Oct, 2009 21:11

sloyvy a écrit:Pour la petite histoire :D je me prépare à démanger d'ici 2 ans dans un pays étranger.[...] La quantité (le poids) de papier dont j'aurais besoin pour X raison est lourde. (certain document se garde 2, 5, 10, 20 ans ou à vie...)
N'oublie que le format informatique est un format récent alors que l'on sait que les papiers se gardent 100ans(voir plus). Les CD gravés ne durent même pas 10 ans, et pour ce qui est des support flash type clé USB, je crois que ce n'est pas précisé par les constructeurs.
Donc, dans le cas d'un litige je pense qu'un tribunal apporteras plus de crédit à un format papier. Le format informatique c'est plus pour la commodité du transport pas pour l'archivage.(ou sinon il faut repiquer régulièrement ses données).
Après je pense qu'il faudrait tout les papiers passer en mode texte, à moins que tu ne définissent à chaque fois les zones et les zones images.
Vulcain

Messages : 625
Géo : Poitiers

Mar 20 Oct, 2009 09:14

Une solution propriétaire (ce qui ne va pas sans poser problème relativement à la confidentialité...) : Evernote ?
Dernière édition par cheval_boiteux le Mar 20 Oct, 2009 11:53, édité 1 fois au total.
Raison: Suppression du lien - Pas de liens vers de logiciels non libres
Invité

Mar 03 Nov, 2009 11:17

http://code.google.com/p/tesseract-ocr/

Il y a certainement moyen de créer un script en utilisant Tesseract pour qu'il analyse tes fichiers (imaginons que tu as pris le soin de les classer tous dans un dossier "Administratif"), qu'il génère des fichiers textes (dans un dossier "Administratif - OCR"), et qu'éventuellement par la suite il vérifie s'il y a de nouveaux originaux et qu'il crée les fichiers texte en conséquence.

Ensuite pour faire une recherche, il suffirait de fouiller parmi le dossier "Administratif - OCR" plein de texte habituels/

J'ai utilisé Tesseract, et si les scans sont bien faits (à plat) il fonctionne plutot bien!
Sans cohérence, l'intelligence n'est rien.
Sythuzuma-Ka

Messages : 1730

Mer 04 Nov, 2009 21:31

Bonsoir,

J'ai toujours du mal à comprendre la méthode voulue même si je comprends l'objectif.

L'idée m'a traversé l'esprit moi aussi, mais je ne vois pas pourquoi j'aurais besoin d'aller chercher des informations dans les documents, alors qu'une simple "photocopie" numérique suffit.

Je scanne mes bulletins de salaires, je les grave sur un CD au cas où. (Mais je conserve aussi les papiers !) Pas besoin d'avoir un fichier texte quelconque selon moi avec des reprises de contenus dedans.

Cordialement
Deleted121118

Jeu 05 Nov, 2009 20:28

A essayer, "simpleOCR" scanner de fichier image (fichier ) Les resultats dependent fortement de l'original.
http://www.simpleocr.com/
En passant, bravo à toute l'équipe framasoft
Photimon

Jeu 05 Nov, 2009 20:34

Je reviens à la charge... j'ai posté un peu vite, et je ne suis plus sûr d'avoir imprimé le but...
Les scan sont des fichiers images ?(BMP, png, tif, jpg,....?) ou ne sont pas encore réalisés?
Dans ce cas, choisir un résultat de scan en PDF .. ce qui permet de faire de la recherche de texte .. :?:
Photimon

Mar 10 Nov, 2009 09:03

Photimon a écrit:Je reviens à la charge... j'ai posté un peu vite, et je ne suis plus sûr d'avoir imprimé le but...
Les scan sont des fichiers images ?(BMP, png, tif, jpg,....?) ou ne sont pas encore réalisés?
Dans ce cas, choisir un résultat de scan en PDF .. ce qui permet de faire de la recherche de texte .. :?:


Ca ne suffira pas, le PDF contiendra une image, et non du texte, donc pas de recherche textuelle possible. A moins justement que le logiciel qui fait le scan fasse aussi OCR pour reconnaitre le texte dans l'image :P
Invité


Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit