IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Casse-tête de 10000 pages html


Sujet :

Langage PHP

  1. #1
    Nouveau Candidat au Club
    Inscrit en
    Juin 2002
    Messages
    2
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 2
    Points : 1
    Points
    1
    Par défaut Casse-tête de 10000 pages html
    Bonjour tout le monde

    j'ai un site qui fait une dizaine de milliers de pages statics et je cherche à savoir s'il y a moyen d'automatiser la récupération du contenu et de le stocker dans une BD.

    toute la difficulté réside dans le fait que ça soit un site de 15000 pages html et aussi dans le fait que le style est aléatoire ...Bref un vrai bordel

    j'ai pensé à un algorithme qui récupèrera ce qu'il y a entre les <body> or j'ai vu que dans pas mal de pages des fois il n'y pas de <body>
    en suite j'ai pensé à curl mais je ne l'ai pas encore tester.

    l'idée finale est de passer à un site qui sera de la forme: index.php?id=$page_id où chaque page possède un id et à chaque page on associe du contenu, truc bien fait quoi!!

    théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page.

    please réfléchisons tous ensemble

  2. #2
    Membre actif Avatar de funckfot
    Profil pro
    Étudiant
    Inscrit en
    Mars 2006
    Messages
    221
    Détails du profil
    Informations personnelles :
    Âge : 37
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2006
    Messages : 221
    Points : 211
    Points
    211
    Par défaut
    tu doit juste recuperer se qu'il y a dans tes pages?
    dans ce cas fait une page qui lit tout tes fichiers et leur contenu et tu l'insere dans ta base non?
    Rod

  3. #3
    Nouveau Candidat au Club
    Inscrit en
    Juin 2002
    Messages
    2
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 2
    Points : 1
    Points
    1
    Par défaut
    c'est facile à dire comme ça mais il fait enlever les styles et le code dont on a pas besoin. l'idée est de récuperer uniquement le texte

  4. #4
    Membre éclairé Avatar de Yobs
    Profil pro
    Inscrit en
    Avril 2004
    Messages
    675
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Avril 2004
    Messages : 675
    Points : 846
    Points
    846
    Par défaut
    Tu peux essayer tes fichiers html avec tidy_clean_repair() pour t'assurer de la syntaxe correcte de tes pages. Ensuite avec tidy_get_body() tu pourra récupérer tout ce qui se trouve entre les balise <body></body>.

    De manière générale, la bibliothèque tidy te permettra d'agir sur tes fichiers html, tu trouvera de l'aide ici: http://fr2.php.net/manual/fr/ref.tidy.php
    Chaque problème a une solution, mais il est plus facile de répondre si le problème est correctement renseignés

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    En perl, tu as un module HTML:arser qui permet de parser les pages html et tu pourras recuperer proprement le contenu des balises. Fais un tour dans le Forum Perl.

  6. #6
    Candidat au Club
    Profil pro
    Inscrit en
    Décembre 2004
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2004
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Citation Envoyé par Sekkate
    Bonjour tout le monde

    l'idée finale est de passer à un site qui sera de la forme: index.php?id=$page_id où chaque page possède un id et à chaque page on associe du contenu, truc bien fait quoi!!

    théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page.

    please réfléchisons tous ensemble
    Oui, théoriquement c'est le cas mais je suppose que tes pages se référencent entre elles (histoire de faire un truc comme "naviguer" sur le site). Et il faudra réécrire les liens entre elles selon le nouveau format correspondant à ta base de donnée, non ?
    Et là j'ai pas de solution simple ... Recoder les URL peut-être mais je ne connais rien de facile pour le faire .

  7. #7
    Membre éprouvé
    Profil pro
    Inscrit en
    Mai 2004
    Messages
    792
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Mai 2004
    Messages : 792
    Points : 1 206
    Points
    1 206
    Par défaut
    Citation Envoyé par Sekkate
    c'est facile à dire comme ça mais il fait enlever les styles et le code dont on a pas besoin. l'idée est de récuperer uniquement le texte
    Voir strip_tags()

    Sinon, il existe aussi une classe PHP pour parser du HTML
    :q :q! :wq :w :w! :wq! :quit :quit! :help help helpquit quit quithelp
    :quitplease :quitnow :leave :shit ^X^C ^C ^D ^Z ^Q QUITDAMMIT
    Jabber: ripat at im.apinc.org

Discussions similaires

  1. [WD-2010] Casse-Tête numérotations des pages
    Par bittermoon dans le forum Word
    Réponses: 1
    Dernier message: 05/06/2012, 15h44
  2. Latex, MathML ou le casse-tête des formules en html
    Par Zavonen dans le forum Contribuez
    Réponses: 10
    Dernier message: 09/12/2010, 18h54
  3. Casse-tête dans ma mise en page
    Par imagonem dans le forum Mise en page CSS
    Réponses: 4
    Dernier message: 25/11/2009, 18h25
  4. [HTML] En tête page html
    Par Mikke dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 26/02/2008, 09h49
  5. Réponses: 2
    Dernier message: 13/10/2006, 11h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo