extraire des infos d'un pdf

**glebourg** · 05/11/2007, 15h29

Bonjour, je voudrais savoir si il est possible depuis c#, et si oui via quelle dll, de lire un fichier pdf pour en extraire des infos.
Plus précisemment je dispose d'un fichier pdf dont le format est fixé. les infos sont présentées sous forme de tableau et je voudrais alimenter une bd a partir des lignes de ce tableau pdf !!
comment que j'peux faire pour ouvrir et lire ce pdf le tout en lgpl
merci.

**kinola** · 07/11/2007, 16h19

il te faut absolument le writer d'acrobat ainsi que le sdk et après il existe des DLL mais payantes qui te permettront de faire pleins de choses...

**glebourg** · 08/11/2007, 15h14

Il n'existe aucun parser free ?
Il existe pourtant plein de viewer free. Y a t'il une telle différence entre sortir l'image ou en extraire les infos ?!

**cinemania** · 08/11/2007, 20h58

Existe t'il des différences ?
oui, le jour et la nuit dirais je.

PDF est un format binaire "compilé", il est facile d'extraire le résultat graphique attendu, il n'est pas de même pour obtenir le draft d'origine qui a permis de le créer. A part Adobe Acrobat Writer fait explicitement pour ca.... RIEN ne te permettra de le faire, en raison des licences, qui l'interdise formellement, pour commencer, et à cause de la complexité, en second lieu.

Quand à analyser le résultat graphique pour déduire le texte... a tu des connaissance en reconnaissance de formes et d'écriture ? Si je te dit Chaine de markov ca évoque quelque chose pour toi ou pas ? si non, abandonne de suite.

**Kaidan** · 08/11/2007, 21h03

PDF est un format ouvert. De là, les spécifications sont publiques et il n'y a aucune contrainte légale pour créer un nouvel Adobe Reader (il y a d'ailleurs quelques uns) ou de Writer (il y a d'ailleurs d'autres). Après il existe plusieurs formats de PDF : PDF texte / PDF image pour ne citer qu'eux. Lire le contenu d'un PDF texte est faisable. Lire le contenu d'un PDF image nécessite de passer à l'OCR chaque page du PDF.

**ced600** · 12/11/2007, 09h45

Dans les contributions il y a ceci :http://www.developpez.net/forums/sho...d.php?t=434579
Il permet de créer des documents PDF. On doit pouvoir l'utiliser pour ouvrir des fichiers PDF.

**Bluedeep** · 12/11/2007, 12h06

Envoyé par ced600

Dans les contributions il y a ceci :http://www.developpez.net/forums/sho...d.php?t=434579
Il permet de créer des documents PDF. On doit pouvoir l'utiliser pour ouvrir des fichiers PDF.

POur générer des pdf, ce n'est pas les solutions qui manquent; par exemple ITextSharp dans le contexte qui nous intéresse; néanmoins, il ne permet pas de les ouvrir pour lecture.

**ced600** · 12/11/2007, 13h23

arf je pensais que c'etait possible, je ne l'ai pas encore essayé

**GroXx** · 12/11/2007, 23h49

Envoyé par cinemania

Existe t'il des différences ?
oui, le jour et la nuit dirais je.

PDF est un format binaire "compilé", il est facile d'extraire le résultat graphique attendu, il n'est pas de même pour obtenir le draft d'origine qui a permis de le créer. A part Adobe Acrobat Writer fait explicitement pour ca.... RIEN ne te permettra de le faire, en raison des licences, qui l'interdise formellement, pour commencer, et à cause de la complexité, en second lieu.

Quand à analyser le résultat graphique pour déduire le texte... a tu des connaissance en reconnaissance de formes et d'écriture ? Si je te dit Chaine de markov ça évoque quelque chose pour toi ou pas ? si non, abandonne de suite.

C'est bizarre ce que tu dis... Pour afficher un PDF, il faut bien le lire, pour pouvoir effectuer le rendu. Et si on peut le lire, on doit pouvoir y parser pour récupérer les infos qui vont bien...

Quant aux chaines de Markov, je vois pas trop ce que ça vient faire là. Je veux bien admettre qu'on puisse utiliser les probas pour faire un OCR, mais faut qu'on m'explique comment on fait ça a partir de chaines de Markov (qui permettent en très gros de prévoir un état futur à partir de l'état présent)

Glebourg: tu trouveras peut-être ton bonheur ici: http://www.codeproject.com/cs/samples/pdf2text.asp

Edit: Je viens d'ouvrir un PDF en mode texte pour voir ce qu'il y a dedans. Voici quelques spéculations en vrac. Bon alors y a du compilé, et du texte en clair me faisant fortement penser à du PostScript (bizarrement...

). la partie PostScript doit définir des genres de styles ou des formes. Le contenu en lui même doit être la partie compilée, qui, exécutée renvoie les données à afficher ainsi que la mise en page. La sortie est à mon avis ce qui est utilisé par les visionneurs PDF pour afficher le contenu d'un document PDF. Suffirait de parser tout ça pour pouvoir récupérer les données voulues.

**ced600** · 13/11/2007, 10h08

C'est bizarre ce que tu dis... Pour afficher un PDF, il faut bien le lire, pour pouvoir effectuer le rendu. Et si on peut le lire, on doit pouvoir y parser pour récupérer les infos qui vont bien...

A ma connaissance, le pdf c'est plus proche d'une image vectorielle qu'autre chose.
Tu l'affiches comme tu afficherais une image vectorielle.
D'où sa qualité à l'impression si je ne me trompe pas.
Donc c'est pour cela que l'on peu penser à faire de la reconnaissance d'image pour en déduire le texte. Dans ce domaine, je n'ai rien essayé, mais des personnes de confiance m'ont dis qu'il y a eu de grand progrès et qu'aujourd'hui les softs sont pas trop mal.
En ce qui concerne les chaines de Markov, je ne connais pas trop, mais je me souviens qu'on m'en avait déjà parlé. Je crois que c t en cours lorsque l'on nous parler des OCR.
Après qu'il aurait il de suprenant d'en l'utilisation des probas pour déterminer si un ensemble de point forme une droite ou une courbe.
Enfin à mon avis c'est plutot utiliser pour décoder les ecris humain, car losrque nous faisons des droites, elles sont légérement courbes et discontinue, on n'est pas des machines après tout

**GroXx** · 13/11/2007, 12h03

Je suis d'accord avec toi, dans un PDF, ce qui est affiché (formes et texte) est vectoriel. En fait il ne s'agit pas d'une seule grosse image vectorielle, mais de pleins de petites. Ce qu'il y a de bien, c'est que les caractères d'une police sont déjà vectoriels (ce qui te permet d'avoir une taille de police de 42 d'aussi bonne qualité qu'en 12). Du coup, dans un PDF, il est tout à fait possible de sélectionner du texte et de le copier-coller autre part... Donc on a là du vrai texte, pas juste des "images" formant des lettres. Donc pas besoin d'OCR.

**ced600** · 13/11/2007, 12h05

Ha ok.

extraire des infos d'un pdf

C#

Discussions similaires

Partager

Partager