IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C# Discussion :

extraire des infos d'un pdf


Sujet :

C#

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    71
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 71
    Points : 56
    Points
    56
    Par défaut extraire des infos d'un pdf
    Bonjour, je voudrais savoir si il est possible depuis c#, et si oui via quelle dll, de lire un fichier pdf pour en extraire des infos.
    Plus précisemment je dispose d'un fichier pdf dont le format est fixé. les infos sont présentées sous forme de tableau et je voudrais alimenter une bd a partir des lignes de ce tableau pdf !!
    comment que j'peux faire pour ouvrir et lire ce pdf le tout en lgpl
    merci.

  2. #2
    Membre à l'essai
    Inscrit en
    Juillet 2006
    Messages
    26
    Détails du profil
    Informations forums :
    Inscription : Juillet 2006
    Messages : 26
    Points : 20
    Points
    20
    Par défaut
    il te faut absolument le writer d'acrobat ainsi que le sdk et après il existe des DLL mais payantes qui te permettront de faire pleins de choses...

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2005
    Messages
    71
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2005
    Messages : 71
    Points : 56
    Points
    56
    Par défaut
    Il n'existe aucun parser free ?
    Il existe pourtant plein de viewer free. Y a t'il une telle différence entre sortir l'image ou en extraire les infos ?!

  4. #4
    Membre expérimenté
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    1 103
    Détails du profil
    Informations personnelles :
    Âge : 46
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations forums :
    Inscription : Juillet 2006
    Messages : 1 103
    Points : 1 561
    Points
    1 561
    Par défaut
    Existe t'il des différences ?
    oui, le jour et la nuit dirais je.

    PDF est un format binaire "compilé", il est facile d'extraire le résultat graphique attendu, il n'est pas de même pour obtenir le draft d'origine qui a permis de le créer. A part Adobe Acrobat Writer fait explicitement pour ca.... RIEN ne te permettra de le faire, en raison des licences, qui l'interdise formellement, pour commencer, et à cause de la complexité, en second lieu.

    Quand à analyser le résultat graphique pour déduire le texte... a tu des connaissance en reconnaissance de formes et d'écriture ? Si je te dit Chaine de markov ca évoque quelque chose pour toi ou pas ? si non, abandonne de suite.

  5. #5
    Membre expérimenté
    Homme Profil pro
    Inscrit en
    Juillet 2007
    Messages
    1 277
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Réunion

    Informations forums :
    Inscription : Juillet 2007
    Messages : 1 277
    Points : 1 521
    Points
    1 521
    Par défaut
    PDF est un format ouvert. De là, les spécifications sont publiques et il n'y a aucune contrainte légale pour créer un nouvel Adobe Reader (il y a d'ailleurs quelques uns) ou de Writer (il y a d'ailleurs d'autres). Après il existe plusieurs formats de PDF : PDF texte / PDF image pour ne citer qu'eux. Lire le contenu d'un PDF texte est faisable. Lire le contenu d'un PDF image nécessite de passer à l'OCR chaque page du PDF.

  6. #6
    Expert confirmé
    Avatar de ced600
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2006
    Messages
    3 364
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2006
    Messages : 3 364
    Points : 4 061
    Points
    4 061
    Par défaut
    Dans les contributions il y a ceci :http://www.developpez.net/forums/sho...d.php?t=434579
    Il permet de créer des documents PDF. On doit pouvoir l'utiliser pour ouvrir des fichiers PDF.

  7. #7
    Inactif  
    Homme Profil pro
    Chef de projet NTIC
    Inscrit en
    Janvier 2007
    Messages
    6 604
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 63
    Localisation : France

    Informations professionnelles :
    Activité : Chef de projet NTIC

    Informations forums :
    Inscription : Janvier 2007
    Messages : 6 604
    Points : 13 317
    Points
    13 317
    Par défaut
    Citation Envoyé par ced600 Voir le message
    Dans les contributions il y a ceci :http://www.developpez.net/forums/sho...d.php?t=434579
    Il permet de créer des documents PDF. On doit pouvoir l'utiliser pour ouvrir des fichiers PDF.
    POur générer des pdf, ce n'est pas les solutions qui manquent; par exemple ITextSharp dans le contexte qui nous intéresse; néanmoins, il ne permet pas de les ouvrir pour lecture.

  8. #8
    Expert confirmé
    Avatar de ced600
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2006
    Messages
    3 364
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2006
    Messages : 3 364
    Points : 4 061
    Points
    4 061
    Par défaut
    arf je pensais que c'etait possible, je ne l'ai pas encore essayé

  9. #9
    Membre régulier
    Profil pro
    Inscrit en
    Septembre 2007
    Messages
    101
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2007
    Messages : 101
    Points : 86
    Points
    86
    Par défaut
    Citation Envoyé par cinemania Voir le message
    Existe t'il des différences ?
    oui, le jour et la nuit dirais je.

    PDF est un format binaire "compilé", il est facile d'extraire le résultat graphique attendu, il n'est pas de même pour obtenir le draft d'origine qui a permis de le créer. A part Adobe Acrobat Writer fait explicitement pour ca.... RIEN ne te permettra de le faire, en raison des licences, qui l'interdise formellement, pour commencer, et à cause de la complexité, en second lieu.

    Quand à analyser le résultat graphique pour déduire le texte... a tu des connaissance en reconnaissance de formes et d'écriture ? Si je te dit Chaine de markov ça évoque quelque chose pour toi ou pas ? si non, abandonne de suite.
    C'est bizarre ce que tu dis... Pour afficher un PDF, il faut bien le lire, pour pouvoir effectuer le rendu. Et si on peut le lire, on doit pouvoir y parser pour récupérer les infos qui vont bien...

    Quant aux chaines de Markov, je vois pas trop ce que ça vient faire là. Je veux bien admettre qu'on puisse utiliser les probas pour faire un OCR, mais faut qu'on m'explique comment on fait ça a partir de chaines de Markov (qui permettent en très gros de prévoir un état futur à partir de l'état présent)

    Glebourg: tu trouveras peut-être ton bonheur ici: http://www.codeproject.com/cs/samples/pdf2text.asp

    Edit: Je viens d'ouvrir un PDF en mode texte pour voir ce qu'il y a dedans. Voici quelques spéculations en vrac. Bon alors y a du compilé, et du texte en clair me faisant fortement penser à du PostScript (bizarrement... ). la partie PostScript doit définir des genres de styles ou des formes. Le contenu en lui même doit être la partie compilée, qui, exécutée renvoie les données à afficher ainsi que la mise en page. La sortie est à mon avis ce qui est utilisé par les visionneurs PDF pour afficher le contenu d'un document PDF. Suffirait de parser tout ça pour pouvoir récupérer les données voulues.

  10. #10
    Expert confirmé
    Avatar de ced600
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2006
    Messages
    3 364
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2006
    Messages : 3 364
    Points : 4 061
    Points
    4 061
    Par défaut
    C'est bizarre ce que tu dis... Pour afficher un PDF, il faut bien le lire, pour pouvoir effectuer le rendu. Et si on peut le lire, on doit pouvoir y parser pour récupérer les infos qui vont bien...
    A ma connaissance, le pdf c'est plus proche d'une image vectorielle qu'autre chose.
    Tu l'affiches comme tu afficherais une image vectorielle.
    D'où sa qualité à l'impression si je ne me trompe pas.
    Donc c'est pour cela que l'on peu penser à faire de la reconnaissance d'image pour en déduire le texte. Dans ce domaine, je n'ai rien essayé, mais des personnes de confiance m'ont dis qu'il y a eu de grand progrès et qu'aujourd'hui les softs sont pas trop mal.
    En ce qui concerne les chaines de Markov, je ne connais pas trop, mais je me souviens qu'on m'en avait déjà parlé. Je crois que c t en cours lorsque l'on nous parler des OCR.
    Après qu'il aurait il de suprenant d'en l'utilisation des probas pour déterminer si un ensemble de point forme une droite ou une courbe.
    Enfin à mon avis c'est plutot utiliser pour décoder les ecris humain, car losrque nous faisons des droites, elles sont légérement courbes et discontinue, on n'est pas des machines après tout

  11. #11
    Membre régulier
    Profil pro
    Inscrit en
    Septembre 2007
    Messages
    101
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2007
    Messages : 101
    Points : 86
    Points
    86
    Par défaut
    Je suis d'accord avec toi, dans un PDF, ce qui est affiché (formes et texte) est vectoriel. En fait il ne s'agit pas d'une seule grosse image vectorielle, mais de pleins de petites. Ce qu'il y a de bien, c'est que les caractères d'une police sont déjà vectoriels (ce qui te permet d'avoir une taille de police de 42 d'aussi bonne qualité qu'en 12). Du coup, dans un PDF, il est tout à fait possible de sélectionner du texte et de le copier-coller autre part... Donc on a là du vrai texte, pas juste des "images" formant des lettres. Donc pas besoin d'OCR.

  12. #12
    Expert confirmé
    Avatar de ced600
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Août 2006
    Messages
    3 364
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Août 2006
    Messages : 3 364
    Points : 4 061
    Points
    4 061
    Par défaut
    Ha ok.

Discussions similaires

  1. [FPDF] Récupérer des infos sur un PDF
    Par CocoRambo dans le forum Bibliothèques et frameworks
    Réponses: 4
    Dernier message: 03/08/2007, 10h03
  2. lire fichier csv et en extraire des infos
    Par isaglada dans le forum VBScript
    Réponses: 2
    Dernier message: 12/02/2007, 13h04
  3. [RSS] extraire des infos d'une balise: possible?
    Par csseur22 dans le forum XML/XSL et SOAP
    Réponses: 4
    Dernier message: 14/10/2006, 17h08
  4. Réponses: 4
    Dernier message: 11/05/2006, 14h41
  5. Comment extraire des infos d'un fichier Word ?
    Par Raoul d'Andrésy dans le forum VBA Word
    Réponses: 4
    Dernier message: 02/12/2005, 17h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo