Recherche library PDF open source pour indexer texte PDF

Je suis à la recherche d'une extension sur serveur Linux, pour indexer le texte contenu dans un fichier PDF et si possible générer un fichier XML
Elle existe en version payante mais à 900 Euros, c'est PDFlib.
Je n'ai pas les moyens pour la version payante, connaissez-vous un équivalent open source ?
Merci d'avance

Bonjour,

je ne suis pas certain que cela convienne mais le moteur de recherche mnogosearch sait indexer les fichiers PDF et stocker tout cela dans une base de données. Avec un peu de travail de transformation, il doit être possible de transformer la base en fichier xml.

Cordialement,
Léviathan

Merci pour ton info, mais c'est un produit payant et qui ne tourne que sous Windows. Je cherche pour Linux et en Open source. un PDF to text pourrai convenir mais en fait je veux m'en servir pour ensuitepouvoir faire des surlignages des textes cherchés dans mon moteur de recherche. Pour résumer on me fournit des PDF que je transforme en fichiers SWF pour ensuite intégrer tout ça dans une animation Flash avec recherche et mise en surbrillance des textes dans les pages.

Il ne faut pas s'arrêter à la page d'accueil ;-) : http://search.mnogo.ru/download.html va jusqu'au tableau "Download sources", tu as ici une version open source qui fonctionne sous GNU/Linux (et en plus elle est gratuite)

Se connecter

Recherche library PDF open source pour indexer texte PDF

Qui est en ligne ?