IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques et frameworks PHP Discussion :

[DOM] extraire des données d'une page xhtml


Sujet :

Bibliothèques et frameworks PHP

  1. #1
    Rédacteur
    Avatar de Louis-Guillaume Morand
    Homme Profil pro
    Cloud Architect
    Inscrit en
    Mars 2003
    Messages
    10 839
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Cloud Architect
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2003
    Messages : 10 839
    Points : 28 254
    Points
    28 254
    Par défaut [DOM] extraire des données d'une page xhtml
    Bonjour,

    Il existe plein de tutos sur le net pour lire un fichier XML mais ca ne fait jamais ce que je veux, du moins d'une façon absolument pas optimisée et souvent en connaissant la structure du fichier XML.
    Ici, j'ai une page XHTML avec une balise speciale disons "toto" qui contient plein d'elements enfants. Mais mon fichier XHTML contient surtout bcp bcp d'informations dont je me contrefiche et dont je ne connais pas la structure.

    J'aimerai extraire les données d'une facon plus ou moins equivalente à ce que je ferais avec du JS à savoir
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    node = document.getElementsByTagName('toto')[0];
    foreach (node.childNodes)
    {
     blabla
    }
    la partie toto ressemble à ca
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    <toto>
      <tata name="narf" type="pwet" />
      <tata name="nurf" type="pwout" />
    </toto>
    c'est donc une serie d'attributs qui m'interessent. Quelle serait la methode la plus simple et optimisée en meme temps pour faire ce que je veux. je ne demande pas un code tout fait mais une piste.

    merci d'avance.

  2. #2
    Expert éminent sénior

    Profil pro
    Inscrit en
    Juin 2002
    Messages
    6 152
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2002
    Messages : 6 152
    Points : 17 777
    Points
    17 777
    Par défaut
    Tu as la même chose pour PHP :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    <?php
    $dom = DomDocument::load('lgm.xml'); // Voir loadHTML(File)
    $node = $dom->getElementsByTagName('toto')->item(0);
    foreach ($node->childNodes as $n) {
        if ($n->nodeType == XML_ELEMENT_NODE) {
            printf('%s : %s<br/>', $n->getAttribute('type'), $n->getAttribute('name'));
        }
    }
    ?>
    Mais ne serait-ce pas plus simple avec SimpleXML ? Voir avec Expat si les performances sont recherchées et le fichier volumineux (parser de type SAX).

  3. #3
    Rédacteur
    Avatar de Louis-Guillaume Morand
    Homme Profil pro
    Cloud Architect
    Inscrit en
    Mars 2003
    Messages
    10 839
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Cloud Architect
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2003
    Messages : 10 839
    Points : 28 254
    Points
    28 254
    Par défaut
    "le peu que tu as donné" manque de bol pour toi, j'ai eu le temps de le voir

    Désolé, je pensais que ca suffisait et surtout tu as répondu à ma question à savoir getElementsByTagName() existe en php

    ca parait bête mais j'ai jamais eu à coder du DOM coté php donc je n'avais pas connaissance de cette fonction.

    par contre je connais sax, je supporte pas son fonctionnement et mon fichier contiendra bcp de data inutiles mais fera rarement plus de 3ko.


    Quant à SimpleXML. c'est quoi? ^^
    je connais pas mais à première lecture, ce n'est pas plus simple mais pas plus compliqué et p-e plus optimisé. je vais creuser ca. merci julp

  4. #4
    Expert éminent sénior

    Profil pro
    Inscrit en
    Juin 2002
    Messages
    6 152
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2002
    Messages : 6 152
    Points : 17 777
    Points
    17 777
    Par défaut
    SimpleXML pour lire/parcourir un document XML ça devient du gâteau (c'est du DOM en coulisse). SimpleXML et Expat ne seront pas vraiment adaptés pour lire des documents HTML alors que l'extension DOM fournit, lui, des méthodes spécifiques (j'avais oublié cette partie de l'ennoncé lors de mon edit). Pour des fichiers de 3 Ko, tu peux utiliser sans problème DOM ou SimpleXML

    En bonus l'équivalent avec SimpleXML pour te montrer:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    $sxml = simplexml_load_file('lgm.xml');
    foreach ($sxml->toto[0]->tata as $tata) {
        printf('%s : %s<br/>', utf8_decode($tata['type']), utf8_decode($tata['name']));
    }
    (Ne serais-tu pas en mode furtif ?)

  5. #5
    Rédacteur
    Avatar de Louis-Guillaume Morand
    Homme Profil pro
    Cloud Architect
    Inscrit en
    Mars 2003
    Messages
    10 839
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Cloud Architect
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2003
    Messages : 10 839
    Points : 28 254
    Points
    28 254
    Par défaut
    bon en fait j'ai encore un petit soucis

    comment puis-je récupérer l'innerHTML via cette méthode?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $body = $dom->getElementsByTagName('body')->item(0);
    sachant que body =
    <body>
    <table>
    <tr>
    <td><input type="checkbox" name="coffee" value="cream"></td>
    <td>ma tache</td>
    <td><img src="_images/edit.gif" /></td>
    <td><img src="_images/deleteLink.gif" /></td>
    </tr>
    <tr>
    <td><input type="checkbox" name="coffee" value="cream"></td>
    <td>ma tache</td>
    <td><img src="_images/edit.gif" /></td>
    <td><img src="_images/deleteLink.gif" /></td>
    </tr>
    </table>
    </body>
    j'aurais donc besoin de recuperer tous les noeuds enfants de body en tant qu'une chaine de caractere. (et ce, le plus simplement possible, pas envie de tout parser, noeud par noeud)

    est-ce possible?

  6. #6
    Expert éminent sénior

    Profil pro
    Inscrit en
    Juin 2002
    Messages
    6 152
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2002
    Messages : 6 152
    Points : 17 777
    Points
    17 777
    Par défaut
    Je ne vois que la méthode saveXML de la classe DomDocument :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    $html = <<< HTML
    <body>
    <table>
    <tr>
    <td><input type="checkbox" name="coffee" value="cream"></td>
    <td>ma tache</td>
    <td><img src="_images/edit.gif" /></td>
    <td><img src="_images/deleteLink.gif" /></td>
    </tr>
    <tr>
    <td><input type="checkbox" name="coffee" value="cream"></td>
    <td>ma tache</td>
    <td><img src="_images/edit.gif" /></td>
    <td><img src="_images/deleteLink.gif" /></td>
    </tr>
    </table>
    </body>
    HTML;
     
    $dom = DomDocument::loadHTML($html);
    $body = $dom->getElementsByTagName('body')->item(0);
    echo $dom->saveXML($body);

  7. #7
    Rédacteur
    Avatar de Louis-Guillaume Morand
    Homme Profil pro
    Cloud Architect
    Inscrit en
    Mars 2003
    Messages
    10 839
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Cloud Architect
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2003
    Messages : 10 839
    Points : 28 254
    Points
    28 254
    Par défaut

    ca fait tout pareil mais en plus propre que mon
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $body = substr($theData, strpos($theData, "<body>"), strpos($theData, "</body>") - strpos($theData, "<body>"));
    on se moque pas! :p

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Extraire des données d'une page Web en VBA sous Excel
    Par BEMI dans le forum Macros et VBA Excel
    Réponses: 4
    Dernier message: 20/05/2009, 06h24
  2. Réponses: 2
    Dernier message: 06/04/2009, 16h44
  3. [WD11] extraire des données d une page internet
    Par cdevl32 dans le forum WinDev
    Réponses: 2
    Dernier message: 24/08/2007, 20h23
  4. [RegEx] Comment extraire des données d'une page HTML ?
    Par taliesin26 dans le forum Langage
    Réponses: 1
    Dernier message: 11/12/2006, 12h39
  5. [Système] Extraire des données d'une page web
    Par nazoreen dans le forum Langage
    Réponses: 17
    Dernier message: 22/03/2006, 21h38

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo