IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langages de programmation Discussion :

regexp pour récupérer tous les liens et leur contenu


Sujet :

Langages de programmation

  1. #1
    Membre du Club
    Homme Profil pro
    Inscrit en
    Décembre 2003
    Messages
    125
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2003
    Messages : 125
    Points : 55
    Points
    55
    Par défaut regexp pour récupérer tous les liens et leur contenu
    Comme l'indique le titre je souhaite utiliser une expression régulière très générique qui me permettrait, pour un contenu html donné incluant des balises ancre/lien, de récupérer à la fois les liens et leur contenu, que je pourrait traiter par ailleurs.
    par exemple ces balises doivent être récupérées :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    <a href="http://www.lien1" id="idlien1" class="classlien1" title="titlelien1">lien1</a>
    <a href="http://www.lien2" class="classlien2" title="titlelien2">lien2</a>
    <a href="http://www.lien3" class="classlien3" id="idlien3">lien3</a>
    <a href="http://www.lien5" class="classlien5">lien5</a>
    <a href="http://www.lien6" id="idlien6">lien6</a>
    <a href="http://www.lien7" title="titlelien7">lien7</a>
    j'ai pensé pouvoir faire toutes les opérations en une fois avec une expression
    du type
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <a( href="([^"]*)"){0,1}( id="([^"]*)"){0,1}( class="([^"]*)"){0,1}( title="([^"]*)"){0,1}>([^<]*){1}<\/a>
    qui fonctionne très bien, mais seulement pour une balise avec les éléments dans cet ordre (href, puis id, puis, class puis title)
    Je souhaiterais savoir s'il est possible de généraliser cette expression en cherchant les termes dans n'importe quel ordre.
    id, puis href, puis title puis class ou bien title puis id puis class puis href...

    merci d'avance

  2. #2
    Modérateur
    Avatar de gangsoleil
    Homme Profil pro
    Manager / Cyber Sécurité
    Inscrit en
    Mai 2004
    Messages
    10 150
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Manager / Cyber Sécurité

    Informations forums :
    Inscription : Mai 2004
    Messages : 10 150
    Points : 28 123
    Points
    28 123
    Par défaut
    Bonjour,

    C'est un parseur qu'il te faut, pas une regexp.

    Il existe des parseurs HTML sur le net, tu devrais pouvoir en trouver sans trop de soucis.

  3. #3
    Membre du Club
    Homme Profil pro
    Inscrit en
    Décembre 2003
    Messages
    125
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Décembre 2003
    Messages : 125
    Points : 55
    Points
    55
    Par défaut
    Certes, de la façon dont tu présentes les choses, mon but est de réinventer la roue. C'est pas totalement faux je pense. Cependant, dans les parseurs html que j'ai pu trouver : ex :htmlparser et comparse (sans jeu de mot ) sont des classes bien lourdes (en poids).

    Mon but est de récupérer dans un tableau tous les éléments constitutifs de la balise ancre. Peut-être être une gageure de faire ça en une seule regexp. Mon niveau dans ce langage est bien trop faible pour me rendre compte si je fais fausse route ou si je suis proche du but.

    En tout cas merci d'avoir répondu

Discussions similaires

  1. [REGEXP] Suppression de tous les liens et les spans dans un code HTML
    Par Jibees dans le forum Collection et Stream
    Réponses: 2
    Dernier message: 23/11/2007, 10h24
  2. [RegEx] Récupérer tous les liens d'une page
    Par micatmidog dans le forum Langage
    Réponses: 13
    Dernier message: 03/11/2006, 01h37
  3. Récupérer tous les liens d'une page html
    Par lapras123 dans le forum C
    Réponses: 28
    Dernier message: 08/08/2006, 11h30
  4. [Mail] Récupérer tous les liens et les titres d'une page
    Par dragon noir dans le forum Langage
    Réponses: 12
    Dernier message: 03/07/2006, 16h09
  5. [RegEx] récupérer tous les liens d'une page
    Par italiasky dans le forum Langage
    Réponses: 15
    Dernier message: 08/04/2006, 18h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo