IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Recherche d'éventuels lien(s) non balisé(s)


Sujet :

Langage PHP

  1. #1
    Membre actif
    Inscrit en
    Février 2009
    Messages
    626
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 626
    Points : 237
    Points
    237
    Par défaut Recherche d'éventuels lien(s) non balisé(s)
    Bonjour,

    Je recherche un moyen de vérifier dans une chaîne, l'existence de lien(s) éventuel(s) non balisé(s), exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    => ma chaine  contient du texte puis un lien http://developpez.com/blablabla à rebaliser puis encore du texte avec un lien balisé [ URL]http://developpez.com/blablabla[/ URL] dont il ne faut pas tenir compte, etc.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $bb_string = preg_replace('@([^]*])(https?://[a-z0-9\./+,%#_-]+)@i', '$1<a href="http://$2" target="_blank">$2</a>', $bb_string);
    Le but étant d'appliquer une balise html correspondante aux liens éventuellement non balisés.

    Si vous avez une solution,

    merci par avance.

  2. #2
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 905
    Points : 6 693
    Points
    6 693
    Par défaut
    Je te conseille d'utiliser DOMXPath pour obtenir tous les nœuds textes contenant http et n'ayant pas pour ancêtre un élément a. Puis pour chacun d'eux tu appliques ta regex (que tu auras corrigée) et tu remplaces l'ancien nœud texte avec le résultat dans l'arbre DOM.

  3. #3
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 905
    Points : 6 693
    Points
    6 693
    Par défaut
    Comme ceci:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    $dom = new DOMDocument;
    $dom->loadHTML($html);
     
    $xp = new DOMXPath($dom);
     
    $textNodes = $xp->query('//text()[not(ancestor::a)][contains(translate(., "HTP", "htp"), "http")]');
     
    foreach ($textNodes as $textNode) {
        $text = $textNode->nodeValue;
     
        $parts = preg_split('~(https?://[\w./#?&=%@+-]+)~i', $text, -1, PREG_SPLIT_DELIM_CAPTURE);
     
        $fragment = $dom->createDocumentFragment();
     
        foreach ($parts as $k => $part) {
            if ($k & 1) {
                $link = $dom->createElement('a');
                $link->setAttribute('href', $part);
                $link->nodeValue = $part;
                $fragment->appendChild($link);
            }
            else {
                $fragment->append($part);
            }
        }
     
        $textNode->parentNode->replaceChild($fragment, $textNode);
    }
     
    $result = '';
     
    foreach ($xp->query('/html/body/node()') as $node) {
        $result .= $dom->saveHTML($node);
    }

  4. #4
    Membre actif
    Inscrit en
    Février 2009
    Messages
    626
    Détails du profil
    Informations forums :
    Inscription : Février 2009
    Messages : 626
    Points : 237
    Points
    237
    Par défaut
    merci, je vais faire quelques tests..

  5. #5
    Membre éclairé
    Homme Profil pro
    Urbaniste
    Inscrit en
    Août 2023
    Messages
    386
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Urbaniste

    Informations forums :
    Inscription : Août 2023
    Messages : 386
    Points : 797
    Points
    797
    Par défaut
    Bonjour,

    les expressions régulières proposées tels que @([^]*])(https?://[a-z0-9\./+,%#_-]+)@i et ~(https?://[\w./#?&=%@+-]+)~i
    ne passent pas pour

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    http://www.amazon.co.jp/エレクトロニクス-デジタルカメラ-ポータブルオーディオ/b/ref=topnav_storetab_e?ie=UTF8&node=3210981
    Peut être ~(https?://[\p{L}./#?&=%@+-]+)~i mais bon,
    ce n'est pas certain non plus
    quand je regarde ce qui est proposé ici
    https://cs.opensource.google/go/go/+...l/url.go;l=499



    Bonne journée.

  6. #6
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 905
    Points : 6 693
    Points
    6 693
    Par défaut
    Change ~(https?://[\w./#?&=%@+-]+)~i pour ~(https?://[\w./#?&=%@+-]+)~iu, en incluant le modificateur u, la classe \w est étendue aux alphabets autre que latin, idem pour les chiffres. Après tu peux t'amuser à transcrire en expression régulière la RFC qui concerne la syntaxe des URLs, mais personnellement c'est au dessus de mes forces et surtout je ne veux pas aboutir à une expression énorme juste pour faire des liens.
    Une autre stratégie serait d'utiliser une classe de caractères définie de manière négative en retirant tous les caractères ne pouvant faire partie d'une URL du genre: ~(https?://[^\s)! … ]+)~i mais ça reste assez fastidieux.

  7. #7
    Membre éclairé
    Homme Profil pro
    Urbaniste
    Inscrit en
    Août 2023
    Messages
    386
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Urbaniste

    Informations forums :
    Inscription : Août 2023
    Messages : 386
    Points : 797
    Points
    797
    Par défaut
    Bonjour,

    Oui je l'avais oublié celui ci /u, merci pour ce autre rappel judicieux.

    Il ne me semblait pas nécessaire de rechercher une solution couvrant tout les cas,
    c'est de toutes façons un travail très, trop, délicat,
    mais le multi-octets est désormais suffisamment répandu pour que l'on
    ne puisse plus faire l'impasse, ceci justifiait de le faire remarquer à mes yeux.

    J'avais vaguement pensé proposer une version en négation aussi,
    je n'y avais pas réfléchit beaucoup plus loin que ~(https?://[^\s]+)~i,
    je ne l'ai pas fait car dans le doute j'ai jugé qu'il était préférable
    de suggérer la modification la moins divergente de ce qui était
    déjà accepté par ailleurs.

    Bonne journée

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Recherche élément médian dans tableau non trié
    Par chicorico dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 27/05/2009, 17h39
  2. Fonction Recherche(google) et liens morts
    Par cyrille_ dans le forum Mode d'emploi & aide aux nouveaux
    Réponses: 4
    Dernier message: 06/01/2006, 12h43
  3. Valider un formulaire par un lien et non par un bouton
    Par budiste dans le forum Langage
    Réponses: 2
    Dernier message: 14/12/2005, 11h58
  4. [PHP/CSS] liens vus->non vus apres une MAJ
    Par epoz dans le forum Langage
    Réponses: 2
    Dernier message: 13/12/2005, 15h08
  5. Réponses: 2
    Dernier message: 30/11/2004, 09h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo