IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

retirer des balises intermédiaires [RegEx]


Sujet :

Langage PHP

  1. #1
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut retirer des balises intermédiaires
    Bonjour

    J'ai un document html qui est constitué de plusieurs tables collées les unes aux autres, du genre
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    <body>
    <table style1>*contenu1*</table>
    <table style2>*contenu2*</table>
    </body>
    Je souhaite les concaténer en une seule table du genre
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <body>
    <table style1>*contenu1* *contenu2*</table>
    </body>
    Ca fait 3 heures que je me débats avec les regex, si quelqu'un avait une idée pour m'aider, merci.
    Pour l'instant, j'ai fait ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    function callback($matches)
    {
    	$nb2 = 0;
    	$m1 = $matches[1];
    	$m2 = $matches[2];
    	$m3 = $matches[3];
    	$p = "#</table>(.*)<table[^>]*>#Us";
    	$m2 = preg_replace($p,'\\1',$m2, -1, $nb2);
    	$m = $m1.$m2.$m3;echo $nb2;
    	return $m;
    }
    $patterns = "#(.[^(<table)]+<table[^>]*>)(.+)(</table>.*)#s";
    $_SESSION['contents'] = preg_replace_callback($patterns,"callback",$_SESSION['contents']);
    Merci d'avance

  2. #2
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Ceci, peut être:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    $str = $_SESSION['contents'];
    preg_match('~<table[^>]*>(.+)</table>~is', $str, $a);
    $con = preg_replace('~<table[^>]*>|</table>~i', '', $a[1]);
    $res = preg_replace('~<table([^>]*)>(?:.+)</table>~is', '<table\1>'.$con.'</table>', $str);
     
    echo htmlentities($res);

  3. #3
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    Merci, mais j'ai oublié de préciser qu'avant le premier <table , j'ai d'autres éléments que j'ai besoin de conserver.
    Le problème est que les balises <table> sont capturées dans le premier élément, alors que j'aimerais qu'elles soient dans le 2è élément.

    Exemple:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    function callback($matches)
    {
    	$nb2 = 0;
    	$m1 = $matches[1];
    	$m2 = $matches[2];
    	$m3 = $matches[3];
    	fwrite(fopen($_SERVER['DOCUMENT_ROOT']."/consult/toto1", "w+"), $m1);
    	fwrite(fopen($_SERVER['DOCUMENT_ROOT']."/consult/toto2", "w+"), $m2);
    	fwrite(fopen($_SERVER['DOCUMENT_ROOT']."/consult/toto3", "w+"), $m3);
    	$p = "#</table>(.*)<table[^>]*>#Us";
    	$m2 = preg_replace($p,'\\1',$m2, -1, $nb2);
    	$m = $m1.$m2.$m3;
    	fwrite(fopen($_SERVER['DOCUMENT_ROOT']."/consult/toto", "w+"), $m);
    	return $m;
    }
    $patterns = "#(.+<table[^>]*>)(.+)(</table>*)#s";
    $_SESSION['contents'] = preg_replace_callback($patterns,"callback",$_SESSION['contents']);
    me renvoie
    dans toto1 :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    <balises diverses>
    <table style>
      //contenu de la table
    </table>
    <table style2>
    dans toto2:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    //contenu de la table 2
    dans toto3:
    Pourtant, dans $patterns = "#(.+<table[^>]*>)(.+)(</table>*)#s";
    je n'ai pas mis le modificateur U, et donc j'attendrai plutôt
    dans toto1 :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <balises diverses>
    <table style>
      //contenu de la table
    dans toto2:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    </table>
    <table style2>
    //contenu de la table 2
    dans toto3:
    Petite précision : je peux avoir plus de 2 tables bout à bout, sinon le problème serait réglé. C'est pour ça que je veux mettre dans la 2è parenthèse toutes les tables, sauf la première balise <table> et ce qu'il y a avant, et sauf la dernière balise </table> et ce qu'il y a après.

    Merci aux experts des regexps pour leur aide.

  4. #4
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Bonjour,

    Ce document html a-t-il besoin d'être parsé à chaque affichage de la page ?
    Si oui, pourquoi est-il dans cet état ?

    Si non, c'est un script planifié que tu veux lancer ?
    Dans ce dernier cas, je feras plutôt du traitement ligne par ligne avec l'aide flags correctement placés pour effectuer le travail. Du coup, la regexp à trouver est beaucoup plus simple.

  5. #5
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    Bonjour,

    Ce document html a-t-il besoin d'être parsé à chaque affichage de la page ?
    Si oui, pourquoi est-il dans cet état ?
    Malheureusement oui. En fait, j'ai des tableaux de chiffres compliqués créés dans excel (avec un langage type template {{}}), et je les affiche sous excel dans un intranet.
    Comme excel fait à peu près n'importe quoi au niveau du html pondu (enfin non, disons seulement qu'il n'est pas paramétrable), il faut le parser et le nettoyer.
    Le processus est :
    - php génère des variables
    - php ouvre le fichier template excel
    - php parse les balises de template pour mettre les variables dans les bonnes cellules
    - php nettoie le code (mon problème est ici)
    - php écrit le code dans un fichier temporaire
    - le navigateur client ouvre le fichier excel.

    L'intérêt, c'est que j'ai des excels dynamiques en fonction de données en BDD MySQL, très faciles à créer pour qui ne maîtrise pas le HTML.

    Je me sers de la même fonctionnalité pour l'impression : il faut que mes utilisateurs puissent ouvrir les tableaux de chiffres générés (avec un template excel ou avec d'autres moyens) sous excel pour pouvoir faire leurs petits calculs s'ils en ont envie.
    Donc là aussi, il faut ouvrir la page dans un excel après un bon nettoyage.

    Si tu as une idée pour mon problème de balises, je suis preneur !

  6. #6
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Tu précises que le document ne commance pas par les tables.
    Est-ce qu'il y a quelquechose après ?

    Peut-on envisager une structure de ce style
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    <html>
     
    <head>...</head>
     
    <body>
     
    <contenu_divers>
     
    <table1> ... </table1>
     
    <table2> ... </table2>
    ...
    <table_n> ... </table_n>
     
    </body>
    </html>
    Sans rien entre la dernière table et la fin du doc (</body>).

  7. #7
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Autre idée : tu dis que tes tables ont chacunes un style.
    Peut-il servir de critère de différenciation des balises ?

  8. #8
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Merci, mais j'ai oublié de préciser qu'avant le premier <table , j'ai d'autres éléments que j'ai besoin de conserver.
    C'est ce que fait mon code d'exemple, non ?

    je n'ai pas mis le modificateur U, et donc j'attendrai plutôt
    pcre ne s'est pas trompé. Tu n'as pas mis de modifier ungreedy donc la capture est greedy.

    Ton problème me paraissait clair dans ton premier post mais maintenant je ne comprends plus grand chose. Le mieux ça serait que tu nous colles un exemple minimal d'un fichier non parsé et de son résultat

  9. #9
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    Citation Envoyé par jml94
    Tu précises que le document ne commance pas par les tables.
    Est-ce qu'il y a quelquechose après ?

    Peut-on envisager une structure de ce style
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
     
    <html>
     
    <head>...</head>
     
    <body>
     
    <contenu_divers>
     
    <table1> ... </table1>
     
    <table2> ... </table2>
    ...
    <table_n> ... </table_n>
     
    </body>
    </html>
    Sans rien entre la dernière table et la fin du doc (</body>).

    Non, a priori il peut y avoir des données à la fin aussi.

    Les tables ont chacune un style, mais pas forcément un style simple à décrire (ça peut être 'style=border-top : 1px:', c'est très variable en fonction de la mise en forme que le créateur du tableau a voulu donner) et surtout ni prévisible, ni maîtrisable.

    En fait, la raison pour laquelle je retire les tables intermédiaires est que lors de l'affichage, excel applique des largeurs automatiques à toutes les cellules dès lors qu'il y a plus d'une table sur la page. Evidemment, j'aimerais bien que les largeur définies restent.

  10. #10
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Citation Envoyé par goodpz
    Ceci, peut être:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    $str = $_SESSION['contents'];
    preg_match('~<table[^>]*>(.+)</table>~is', $str, $a);
    $con = preg_replace('~<table[^>]*>|</table>~i', '', $a[1]);
    $res = preg_replace('~<table([^>]*)>(?:.+)</table>~is', '<table\1>'.$con.'</table>', $str);
     
    echo htmlentities($res);
    J'essaie de comprendre ce qui me parait une très bonne piste.
    Tu me corriges, goodpz ?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    preg_match('~<table[^>]*>(.+)</table>~is', $str, $a);
    Extraction de tout ce qui est compris entre la première balise <table> et </table>, celles-ci non comprises, dans le tableau $a.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $con = preg_replace('~<table[^>]*>|</table>~i', '', $a[1]);
    Remplacement de la balise <table ...> ou </table> par que dalle.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $res = preg_replace('~<table([^>]*)>(?:.+)</table>~is', '<table\1>'.$con.'</table>', $str);
    Là, je voie pas, pourquoi ne suffit-il pas de faire ça :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $res = preg_replace('~<table([^>]*)>(.+)</table>~is', $con, $str);
    Sans code pour tester, c'est vraiment pas évident.
    Mais on y est presque !

  11. #11
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Extraction de tout ce qui est compris entre la première balise <table> et </table>, celles-ci non comprises, dans le tableau $a.
    1) Non, pas exactement (c'est greedy). Ca va extraire tout ce qui est entre le premier <table> et le dernier </table> de la page (non compris effectivement, c'est là l'astuce ; )

    Remplacement de la balise <table ...> ou </table> par que dalle.
    2) Oui et ce remplacement se fait sur la chaine extraite précédement.

    Là, je voie pas, pourquoi ne suffit-il pas de faire ça
    3) Du coup ensuite, je reprends la chaîne de départ et je remplace l'interieur du premier <table> jusqu'au dernier </table> par le contenu nettoyé en 2)

    Mes testes en local quand j'ai écrit le truc hier marchaient bien d'après son exemple donné dans le premier post

  12. #12
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Citation Envoyé par goodpz
    1) Non, pas exactement (c'est greedy). Ca va extraire tout ce qui est entre le premier <table> et le dernier </table> de la page (non compris effectivement, c'est là l'astuce ; )



    2) Oui et ce remplacement se fait sur la chaine extraite précédement.



    3) Du coup ensuite, je reprends la chaîne de départ et je remplace l'interieur du premier <table> jusqu'au dernier </table> par le contenu nettoyé en 2)

    Mes testes en local quand j'ai écrit le truc hier marchaient bien d'après son exemple donné dans le premier post
    1) C'est ce que j'avais compris, je me suis mal exprimé.

    3) J'avais aussi bien compris le principe, aussi je ne comprends toujours pas le besoin de
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    '<table\1>'.$con.'</table>'
    au lieu de

  13. #13
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    1) Non, pas exactement (c'est greedy). Ca va extraire tout ce qui est entre le premier <table> et le dernier </table> de la page (non compris effectivement, c'est là l'astuce ; )
    Justement, j'ai eu un problème avec le greedy (voir mon message de 11h14), comme si le greedy avait commencé à la 2è balise.

  14. #14
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    OK, j'ai pigé !

    J'y suis presque : ne manquerait-il pas un $ avant le 1 dans le motif de remplacement ?

    --- edit --
    Je répondais à goodpz

  15. #15
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    aussi je ne comprends toujours pas le besoin de
    Car il faut bien garder le premier <table...> et le tout dernier </table>

    Si on se contente de remplacer uniquement par $con (qui est le 'contenu' nettoyé), on n'aura plus aucun table dans la page

    ne manquerait-il pas un $ avant le 1 dans le motif de remplacement
    Non, enfin tu peux, mais '\1' suffit

    Edit: ok tu as pigé ; )

  16. #16
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    Au fait, merci, je viens de tester et ça marche nickel. Je n'avais pas pensé au stockage temporaire dans $a de preg_match.
    Mais je ne comprends pas pourquoi ma version avec callback ne fonctionnait pas

  17. #17
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Justement, j'ai eu un problème avec le greedy (voir mon message de 11h14), comme si le greedy avait commencé à la 2è balise.
    Il n'y a pas de problème de greedy. Relis le post #8

    Lol, commence à être compliquée cette thread ; )

  18. #18
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Super !

    Résolu...

  19. #19
    Membre confirmé Avatar de goodpz
    Profil pro
    Inscrit en
    Février 2007
    Messages
    475
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2007
    Messages : 475
    Points : 514
    Points
    514
    Par défaut
    Au fait, merci, je viens de tester et ça marche nickel
    Tu aurais pu tester un peu plus tôt, ça nous aurait épargné beaucoup de bytes ; )

  20. #20
    Membre éprouvé

    Inscrit en
    Janvier 2006
    Messages
    969
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 969
    Points : 958
    Points
    958
    Par défaut
    Comprends toujours pas le coup du greedy : j'ai justement demandé greedy, et j'ai l'impression qu'il n'est pas complètement greedy ! Enfin bon, j'ai 1000 autres problèmes à régler avant de comprendre tout ça.
    Merci à vous 2 en tous cas !

+ Répondre à la discussion
Cette discussion est résolue.
Page 1 sur 2 12 DernièreDernière

Discussions similaires

  1. [Article] Liste des balises et de leurs enfants pour une validation XHTML 1.1
    Par giminik dans le forum Publications (X)HTML et CSS
    Réponses: 12
    Dernier message: 12/02/2018, 16h11
  2. [XSL][re] Ecrire des balise qui ne seront pas interpretées
    Par FrRoulio dans le forum XSL/XSLT/XPATH
    Réponses: 8
    Dernier message: 17/03/2004, 13h32
  3. XLS - Nom des balise
    Par lakrimo dans le forum XMLRAD
    Réponses: 2
    Dernier message: 05/02/2004, 12h12
  4. Position des balises H2 ou comment les numéroter
    Par haypo dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 12/07/2003, 20h24
  5. Placement des balises avec DTD
    Par Keul125 dans le forum Valider
    Réponses: 4
    Dernier message: 28/05/2003, 13h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo