IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

Analyser un PDF pour créer un Index


Sujet :

C#

  1. #1
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut Analyser un PDF pour créer un Index
    Bonjour,

    Connaitriez-vous une bibilothèque C# même payante qui permettrait de lire et analyser les pages d'un fichiers PDF afin de trouver les mots présents dans chaque page, l'objectif étant de construire une table d'index mot->n° page.

  2. #2
    Rédacteur
    Avatar de Paul Musso
    Profil pro
    Inscrit en
    Août 2008
    Messages
    368
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2008
    Messages : 368
    Points : 443
    Points
    443
    Par défaut
    Bonjour,

    TallPDF.Net devrait te combler de bonheur. Cette librairie te permet de créer, manipuler et de lire un fichier PDF.

  3. #3
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Merci Paul,

    J'avais vu cette bibli. Il semblerait qu'elle n'extraie que des caractères indépendants. Il faut donc recomposer les mots. Ca n'a rien d'infaisable, mais si c'était dèjà fait par ailleurs ...

  4. #4
    Rédacteur
    Avatar de Paul Musso
    Profil pro
    Inscrit en
    Août 2008
    Messages
    368
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2008
    Messages : 368
    Points : 443
    Points
    443
    Par défaut
    J'ai répondu un peu vite en fait ...
    Bon, j'essaie de me rattraper, avec celle-ci.

    Parait que le résultat n'est pas parfait, mais l'utilisation de cette librairie m'a l'air extrêmement simple, exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    // create an instance of the pdfparser class
    PDFParser pdfParser = new PDFParser();
     
    // extract the text
    String result = pdfParser.ExtractText(pdfFile);

  5. #5
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Ca semble correspondre à mon besoin et opensource en plus .

    Il faudra quand même modifier la fonction ExtractText pour associer à chaque mot son numéro de page. Mais, c'est tout simple.

    Merci, je mettrai "résolu" si l'implémentation réussit.

  6. #6
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    J'ai perdu un max de temps pour des problèmes de sécurité : dll fournies sans strong name. Tout çà, pour m'apercevoir que la fonction pdfParser.ExtractText renvoyait n'importe quoi .

    Bon, faute de mieux, je vais me rabattre sur la première solution tallComponents en vérifiant que leurs Dll ont des strong name!

  7. #7
    Rédacteur
    Avatar de Paul Musso
    Profil pro
    Inscrit en
    Août 2008
    Messages
    368
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2008
    Messages : 368
    Points : 443
    Points
    443
    Par défaut
    Citation Envoyé par Paul Musso Voir le message
    Parait que le résultat n'est pas parfait ...
    J'avais prévenu ^^. J'en ai trouvé une autre dans le même style. D'après les commentaires, elle m'a l'air de fonctionner correctement. Après ça dépend peut-être aussi du pdf lu ...

Discussions similaires

  1. Pour créer des pdf : meilleur logiciel ?
    Par calogerogigante dans le forum Autres Logiciels
    Réponses: 11
    Dernier message: 22/04/2006, 17h54
  2. Réponses: 1
    Dernier message: 27/12/2005, 00h27
  3. Créer un index pour une Base de données
    Par john7 dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 31/01/2005, 21h43
  4. pb pour créer des index [too many keys]
    Par Issam dans le forum Débuter
    Réponses: 3
    Dernier message: 19/01/2005, 20h58
  5. Réponses: 7
    Dernier message: 21/10/2004, 09h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo