IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Convertir pdf en html


Sujet :

Langage PHP

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Janvier 2008
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2008
    Messages : 18
    Points : 7
    Points
    7
    Par défaut Convertir pdf en html
    Bonjour,

    J'aimerais pouvoir convertir des documents pdf en html pour pouvoir par la suite les stocker dans une Base de donnée et faire un moteur de recherche. J'ai vu que l'on pouvais utiliser pdftohtml mais je ne trouve aucune documentation ou exemple qui m'explique comment faire, je quelqu'un possède un exemple ou puisse m'orienter quelque part

    Merci de vos réponse

  2. #2
    Membre expérimenté Avatar de riete
    Homme Profil pro
    DevWeb - Oléiculteur
    Inscrit en
    Avril 2006
    Messages
    1 193
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 63
    Localisation : France

    Informations professionnelles :
    Activité : DevWeb - Oléiculteur
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2006
    Messages : 1 193
    Points : 1 414
    Points
    1 414
    Par défaut
    Cela dépends si tu souhaite conserver la présentation de tes documents ou si tu es interessé uniquement par le contenu texte sur lequel tu dois faire ta recherche?

    Convertir en HTMl n'est pas obligatoirement nécessaire pour stocker tes fichiers PDF. Tu peux par exemple utiliser le type BLOB en MySQL.

    Je ne sais pas si cela peux t'aider, mais donne nous un peu plus d'infos pour que les réponses soient un peu plus précise

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Janvier 2008
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2008
    Messages : 18
    Points : 7
    Points
    7
    Par défaut
    Merci pour cette réponse rapide

    J'explique plus précisemment mon projet je suis chargé de réaliser une application en intranet qui devra indexé des fichiers .doc et .pdf puis ensuite faire un module de recherche qui devra recherche dans ces documents un moteur de recherche quoi

    J'avais penser à convertir les fichiers en html pour pouvoir faire mes recherches plus facilement car avec les .doc c'est pas tout simple :s j'ai deja réussi a convertir des .doc en .html j'aurais donc aimer faire de même avec les pdf ou en txt à la rigueur

    Si vous avez besoin de plus d'infos demander moi ^^
    Voila si vous avez des idées à me proposer je suis preneur je suis pas très expérimenté en php étant qu'en deuxième année d'informatique je dois réaliser ce projet lors de mon stage en entreprise

    Merci pour vos réponses

  4. #4
    Membre expérimenté Avatar de riete
    Homme Profil pro
    DevWeb - Oléiculteur
    Inscrit en
    Avril 2006
    Messages
    1 193
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 63
    Localisation : France

    Informations professionnelles :
    Activité : DevWeb - Oléiculteur
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2006
    Messages : 1 193
    Points : 1 414
    Points
    1 414
    Par défaut
    Citation Envoyé par Srh00 Voir le message
    Merci pour cette réponse rapide

    J'explique plus précisemment mon projet je suis chargé de réaliser une application en intranet qui devra indexé des fichiers .doc et .pdf puis ensuite faire un module de recherche qui devra recherche dans ces documents un moteur de recherche quoi

    J'avais penser à convertir les fichiers en html pour pouvoir faire mes recherches plus facilement car avec les .doc c'est pas tout simple :s j'ai deja réussi a convertir des .doc en .html j'aurais donc aimer faire de même avec les pdf ou en txt à la rigueur
    Ton problème est très interessant. S'est d'ailleurs un sujet sur lequel je plancherai à plus ou moins brève échéance pour gérer nos document en interne.
    A priori, procèderais en 3 étapes:

    - 1/ extraction des données texte des documents et stockage dans une table PlainText pour permettre ensuite la recherche avec un moteur de BD (j'expliqe plus loin un piste)

    - 2/ Stockage du document sous forme de Blob dans une autre table avec liaison entre la table des BLOB et celle des PlainText.

    - 3/ Construction de l'outil de recherche

    Pour ce qui est de l'extraction des données text dans les documents PDF, j'y vois une difficulté de poids (mais qui donnera du piment à ton stage, car s'est déjà un sujet en soit ) qui consiste à reconnaitre l'encodage des caractères et ensuite isoler le texte. Je pense que cette difficulté surmontée, le reste n'est que programmation "standard".
    Pour la partie extraction regarde du comment est foutu un document PDF simple que tu créés toi même.
    Ah... s'est un projet sympa, mais je n'ai pas trop le temps. Bon courage.

    Citation Envoyé par Srh00 Voir le message
    Si vous avez besoin de plus d'infos demander moi ^^
    Voila si vous avez des idées à me proposer je suis preneur je suis pas très expérimenté en php étant qu'en deuxième année d'informatique je dois réaliser ce projet lors de mon stage en entreprise

    Merci pour vos réponses
    J'espère que tu seras grassement payé si tu y arrive, car c'est un produit avec lequel certaines entreprises se font leur beurre (si tu vois ce que je veux dire ).

    Tiens moi au courant cela m'interesse.

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Janvier 2008
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2008
    Messages : 18
    Points : 7
    Points
    7
    Par défaut
    Je bloque vraiment pour l'extraction des pdf c'est assez chaud pour quelqu'un d'inexpérimenté :s
    Si quelqu'un avait quelques pistes ou exemple à me donné cela serait vraiment cool

  6. #6
    Membre expérimenté Avatar de riete
    Homme Profil pro
    DevWeb - Oléiculteur
    Inscrit en
    Avril 2006
    Messages
    1 193
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 63
    Localisation : France

    Informations professionnelles :
    Activité : DevWeb - Oléiculteur
    Secteur : Bâtiment

    Informations forums :
    Inscription : Avril 2006
    Messages : 1 193
    Points : 1 414
    Points
    1 414
    Par défaut
    Je t'avoue que je me suis un peu interessé au sujet suite à ton message, car comme je te le disais plus haut, j'aurais surement à faire la même chose.

    Et ma conclusion est identique à la tienne "S'est chau bouillant"

    pour l'anegdote, j'ai même réussit à planté php (le serveur complet), chose rarissime.

    Je pense que le problème principal à gérer est la version des document pdf source.

    Bon courage, si je peux encore t'aider s'est avec plaisir.
    Si tu avance dépose un bout de ton code et on le regardera.

Discussions similaires

  1. Convertir un fichier HTML en fichier PDF en ligne de commande
    Par koKoTis dans le forum Autres Logiciels
    Réponses: 6
    Dernier message: 15/06/2009, 23h06
  2. Convertir pdf to html
    Par nadabb dans le forum Windows Forms
    Réponses: 0
    Dernier message: 22/05/2009, 08h32
  3. Convertir PDF en HTML
    Par Carb0 dans le forum Langage
    Réponses: 4
    Dernier message: 24/12/2008, 14h45
  4. [FPDF] Convertir page PHP/HTML > PDF
    Par arnaudperfect dans le forum Bibliothèques et frameworks
    Réponses: 3
    Dernier message: 05/02/2007, 02h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo