[Système] Lecture du contenu d'un PDF

**Diss** · 20/09/2006, 12h22

Bonjour,

La discussion a été maintes fois posée sur le forum, mais il ne semble pas avoir eu une reponse satisfaisante.

Je reviens donc pour savoir s'il est possible de lire le contenu d'un fichier PDF quelconque et d'en extraire une ligne bien précise ?

Je le fais bien quand il s'agit d'un .DOC, .HTM avec fopen() et fgets(). Mais quand j'utilise cette methode pour les PDF, le script me renvoie une ligne de caracteres bizares.

Merci.

**nako** · 20/09/2006, 13h00

Salut,
il existe des librairies spécialement conçues pour le PDF :
as-tu regardé du côté de PDFLib et de FPDF ?
Ces librairies sont capables de créer des documents PDF, donc j'imagine qu'elles sont aussi capables de les lire !?!
a+

**Diss** · 20/09/2006, 13h17

Ok je vais voir encore, sinon j'avais déja fait un tour de ce coté

**Eaques** · 20/09/2006, 13h17

Tu peux toujours essayer de convertir ton pdf en texte avec un outil comme pdftotext et puis exploiter ce fichier texte.
(voir tuto de cafeine, je pense de mémoire)

**Diss** · 20/09/2006, 14h09

Je crains que la conversion du fichier ralentisse le processus car il s'agit d'un script de moteur de recherche par mot clé sur un intranet, et cette recherche s'effectue sur un dossier contenant plus de 1000 fichiers.

**FCYPBA** · 20/09/2006, 14h17

Si c'est pour de la recherche de texte ( en francais je suppose ), alors tu peux essayer d'ouvrir les fichiers via fopen.

**Diss** · 20/09/2006, 14h41

J'utilise bien fopen() et fgets() mais au lieu de me renvoyer une ligne normale, il affiche toute autre chose.

Exemple :
Si l'utilisateur demande d'afficher le nom des fichiers et une ligne du fichier dans lequel on retrouve la mot re on aura :

Nom du fichier trouvé : UnFichier.pdf
Ligne recupérée : << /Length 2 0 R

**FCYPBA** · 20/09/2006, 15h07

Ah oui effectievement si tu veux afficher la ligne trouvé, cela devient un peu plus compliqué. Il faudrait que tu traites les caractères spécifiques au formatage PDF.

Sinon, il me semble qu'avec une des librairies citées plus haut, tu peux ouvrir un pdf. Par contre, cela sera un peu plus long qu'un vulgaire fopen. Instanciation de l'objet et parcours des pages, etc...

Invité · 20/09/2006, 15h29

Et est-ce que c'est envisageable pour toi d'indexer les fichiers (quand ils sont ajoutés, par exemple) afin d'aller plus vite dans les recherches futures ?

**Diss** · 20/09/2006, 15h59

On peut envisager d'indexer les fichiers à venir. Mais pour l'instant le probleme reside avec le millier de fichiers existants. Peut etre qu'en plongeant plus dans les librairies disponibles je trouverai quelque chose.

En fait le dossier contient aussi quelques fichiers .DOC, mais je n'arrive pas a les ouvrir en lecture seule, voila pourquoi j'ai opté pour les PDF

[Système] Lecture du contenu d'un PDF

Langage PHP

Discussions similaires

Partager

Partager