Nous sommes le Ven 25 Juil, 2025 02:07
Supprimer les cookies

Recherche library PDF open source pour indexer texte PDF

Pour une tâche précise, pour remplacer un logiciel propriétaire donné...

Jeu 07 Sep, 2006 13:26

Je suis à la recherche d'une extension sur serveur Linux, pour indexer le texte contenu dans un fichier PDF et si possible générer un fichier XML
Elle existe en version payante mais à 900 Euros, c'est PDFlib.
Je n'ai pas les moyens pour la version payante, connaissez-vous un équivalent open source ?
Merci d'avance
dyonis

Messages : 2

Jeu 07 Sep, 2006 14:23

Bonjour,

je ne suis pas certain que cela convienne mais le moteur de recherche mnogosearch sait indexer les fichiers PDF et stocker tout cela dans une base de données. Avec un peu de travail de transformation, il doit être possible de transformer la base en fichier xml.

Cordialement,
Léviathan
Invité

Jeu 07 Sep, 2006 15:01

Merci pour ton info, mais c'est un produit payant et qui ne tourne que sous Windows. Je cherche pour Linux et en Open source. un PDF to text pourrai convenir mais en fait je veux m'en servir pour ensuitepouvoir faire des surlignages des textes cherchés dans mon moteur de recherche. Pour résumer on me fournit des PDF que je transforme en fichiers SWF pour ensuite intégrer tout ça dans une animation Flash avec recherche et mise en surbrillance des textes dans les pages.
dyonis

Messages : 2

Jeu 07 Sep, 2006 15:05

Il ne faut pas s'arrêter à la page d'accueil ;-) : http://search.mnogo.ru/download.html va jusqu'au tableau "Download sources", tu as ici une version open source qui fonctionne sous GNU/Linux (et en plus elle est gratuite)
Invité


Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit