IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

VB.NET Discussion :

[VB.NET] Comment chercher occurences mots dans .doc .pdf ?


Sujet :

VB.NET

  1. #1
    Futur Membre du Club
    Inscrit en
    Février 2006
    Messages
    7
    Détails du profil
    Informations forums :
    Inscription : Février 2006
    Messages : 7
    Points : 6
    Points
    6
    Par défaut [VB.NET] Comment chercher occurences mots dans .doc .pdf ?
    Je dois faire un moteur de recherche VB.NET. Je dois chercher des mots clés dans des fichiers word et pdf. Ainsi pour chaque fichier je voudrais trouver le nombre d'occurence de chaque mot clé.
    Quelle est l'API pour faire mes recherches (utiliser le ctr+f de windows) et comment l'utiliser (ou est la doc).
    Merci.

  2. #2
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    Travailles-tu avec le Framework 2.0 :

  3. #3
    Futur Membre du Club
    Inscrit en
    Février 2006
    Messages
    7
    Détails du profil
    Informations forums :
    Inscription : Février 2006
    Messages : 7
    Points : 6
    Points
    6
    Par défaut
    Oui je travaille avec le framework2.0 sous VB2005 Express.
    Merci.

  4. #4
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    Excellente nouvelle pour toi

    Tu as donc accès à
    My.Computer.FileSystem.FindInFiles Method

    J'ai un article en cours sur ces nouveautés particulières liées à Microsoft.VisualBasic, mais bon jsuis en retard sur mon timing

  5. #5
    Futur Membre du Club
    Inscrit en
    Février 2006
    Messages
    7
    Détails du profil
    Informations forums :
    Inscription : Février 2006
    Messages : 7
    Points : 6
    Points
    6
    Par défaut
    Je suis en train de regarder.
    Ca fonctionne pour les .doc mais pas pour les .pdf. Je ne sais pas comment fonctione les pdf mais quand j'ouvre un .pdf avec un éditeur genre textpad, je ne vois que des caractères spéciaux et pas le texte qui s'affiche avec acrobat reader.
    Sinon la méthode ne rend pas le nombre d'occurence par fichier mais seulement si il ya une occurence dans le fichier. En tout cas ça m'avance bien. Si je dois développez la recherche du nombre d'occurence, je ne chercherai que parmi les fichiers rendus(à mon avis ce code doit être plus optimisé que le mien ).

    Je ne clôture pas encore le sujet (il faut quand même que je vois si on peut manipuler les pdf).
    Merci pour ta rapidité à répondre.

  6. #6
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    pour les PDF, peut être que des spécialistes pourraient te confirmer l'intérêt de la dll ITextSharp qui si je ne me trompe pas à un Espace de noms iText qui contient des fonctions de lecture et parsing d'un format rtf

  7. #7
    Futur Membre du Club
    Inscrit en
    Février 2006
    Messages
    7
    Détails du profil
    Informations forums :
    Inscription : Février 2006
    Messages : 7
    Points : 6
    Points
    6
    Par défaut
    Voici une page de documentation itext où il est expliqué que qu'on ne peut pas parser un fichier pdf avec itextsharp. En fait cette librairie permet de créer un pdf, de découper des pages de pdf existant et de les insérer dans le document pdf que l'on construit. L'objet de base manipuler par itextsharp est la page (pas la ligne de texte).
    Pour les pdf ça n'est gagné.

    Voici un petit extrait de la page que j'ai mis en lien:
    You can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
    What does this mean?
    The pdf format is just a canvas where text and graphics are placed without any structure information. As such there aren't any 'iText-objects' in a PDF file. In each page there will probably be a number of 'Strings', but you can't reconstruct a phrase or a paragraph using these strings.
    Si vous avez d'autres pistes, je suis preneur.
    Merci.

  8. #8
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    Citation Envoyé par jerome666
    ...
    Si vous avez d'autres pistes, je suis preneur.
    Merci.
    J'ai bien une solution bourrin
    en passant par un RichTextBox qui n'a aucun souci pour afficher du rtf et qui dispose de fonctionnalité de recherche de mots :

  9. #9
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2006
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 5
    Points : 6
    Points
    6
    Par défaut
    Citation Envoyé par neguib
    Citation Envoyé par jerome666
    ...
    Si vous avez d'autres pistes, je suis preneur.
    Merci.
    J'ai bien une solution bourrin
    en passant par un RichTextBox qui n'a aucun souci pour afficher du rtf et qui dispose de fonctionnalité de recherche de mots :
    En RTF??? ca ne risque pas de ralentir le traitement car un rtf c'est juste un ptit peu lourd non???

  10. #10
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    Citation Envoyé par spiderdrick
    En RTF??? ca ne risque pas de ralentir le traitement car un rtf c'est juste un ptit peu lourd non???
    jte disais bien
    Citation Envoyé par neguib
    ...J'ai bien une solution bourrin ...

  11. #11
    Futur Membre du Club
    Profil pro
    Inscrit en
    Février 2006
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 5
    Points : 6
    Points
    6
    Par défaut
    Clair que c bourin loool...

    Mais il me semblai (mais cela reste a vérifier, je suis pas pro des PDFs) que le format pdf a un équivalent en xml... : :

    Piste à creuser...

  12. #12
    Expert éminent
    Avatar de neguib
    Profil pro
    Inscrit en
    Mai 2005
    Messages
    3 627
    Détails du profil
    Informations personnelles :
    Âge : 64
    Localisation : Suisse

    Informations forums :
    Inscription : Mai 2005
    Messages : 3 627
    Points : 7 879
    Points
    7 879
    Par défaut
    Citation Envoyé par spiderdrick
    Clair que c bourin loool...

    Mais il me semblai (mais cela reste a vérifier, je suis pas pro des PDFs) que le format pdf a un équivalent en xml... : :

    Piste à creuser...
    comme celle là peut être
    http://www.pdf2text.com/?google

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 12
    Dernier message: 08/11/2014, 08h35
  2. pdfbox chercher un mot dans un pdf
    Par Feres_agent1116 dans le forum API standards et tierces
    Réponses: 2
    Dernier message: 13/05/2013, 13h51
  3. Comment chercher un mot dans un fichier texte et le modifier?
    Par Ange_1987 dans le forum VB 6 et antérieur
    Réponses: 8
    Dernier message: 13/05/2009, 18h24
  4. Réponses: 10
    Dernier message: 23/05/2006, 17h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo