Bonjour,
Connaitriez-vous une bibilothèque C# même payante qui permettrait de lire et analyser les pages d'un fichiers PDF afin de trouver les mots présents dans chaque page, l'objectif étant de construire une table d'index mot->n° page.
Bonjour,
Connaitriez-vous une bibilothèque C# même payante qui permettrait de lire et analyser les pages d'un fichiers PDF afin de trouver les mots présents dans chaque page, l'objectif étant de construire une table d'index mot->n° page.
Bonjour,
TallPDF.Net devrait te combler de bonheur. Cette librairie te permet de créer, manipuler et de lire un fichier PDF.
Merci Paul,
J'avais vu cette bibli. Il semblerait qu'elle n'extraie que des caractères indépendants. Il faut donc recomposer les mots. Ca n'a rien d'infaisable, mais si c'était dèjà fait par ailleurs ...
J'ai répondu un peu vite en fait ...
Bon, j'essaie de me rattraper, avec celle-ci.
Parait que le résultat n'est pas parfait, mais l'utilisation de cette librairie m'a l'air extrêmement simple, exemple :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 // create an instance of the pdfparser class PDFParser pdfParser = new PDFParser(); // extract the text String result = pdfParser.ExtractText(pdfFile);
Ca semble correspondre à mon besoin et opensource en plus .
Il faudra quand même modifier la fonction ExtractText pour associer à chaque mot son numéro de page. Mais, c'est tout simple.
Merci, je mettrai "résolu" si l'implémentation réussit.
J'ai perdu un max de temps pour des problèmes de sécurité : dll fournies sans strong name. Tout çà, pour m'apercevoir que la fonction pdfParser.ExtractText renvoyait n'importe quoi .
Bon, faute de mieux, je vais me rabattre sur la première solution tallComponents en vérifiant que leurs Dll ont des strong name!
J'avais prévenu ^^. J'en ai trouvé une autre dans le même style. D'après les commentaires, elle m'a l'air de fonctionner correctement. Après ça dépend peut-être aussi du pdf lu ...
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager