IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Extraire une chaîne de caractère avec une regex en php [RegEx]


Sujet :

Langage PHP

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    Avril 2020
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Lozère (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Avril 2020
    Messages : 12
    Points : 9
    Points
    9
    Par défaut Extraire une chaîne de caractère avec une regex en php
    Bonjour, je voudrais extraire
    J'essaie d'analyser une une section d'un site Web avec la bibliothèque PHP Simple HTML DOM. Je sais que mon instruction cURL fonctionne et saisit le code HTML brut, car je peux faire écho aux résultats de la commande cURL et voir le contenu de la page Web sur mon serveur.
    J'ai pu récupérer le BIC en utilisant une regex, je veux maintenant extraire le nom de la Banque, je ne sais pas comment m'y prendre.
    Nom : Capture.PNG
Affichages : 584
Taille : 21,3 Ko
    Par ex écrire une regex qui affiche la chaîne de caractère compris entre "Bank" et "City".
    Cordialement,
    Joey

  2. #2
    Expert confirmé
    Avatar de laurentSc
    Homme Profil pro
    Webmaster débutant perpétuel !
    Inscrit en
    Octobre 2006
    Messages
    10 468
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Webmaster débutant perpétuel !
    Secteur : Industrie

    Informations forums :
    Inscription : Octobre 2006
    Messages : 10 468
    Points : 5 826
    Points
    5 826
    Billets dans le blog
    1
    Par défaut
    Bonjour,

    le code de ce qui fonctionne déjà, ça pourrait servir...

  3. #3
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    Sans ton code PHP, sans le code HTML de la page (une copie d'écran ne sert à rien), avec une mauvaise idée en tête (parser du HTML avec des regex) et une bibliothèque de *** (Simple HTML DOM) que visiblement tu n'as pas l'intention d'utiliser, on est pas bien parti.

    Si tu veux de l'aide, il va falloir redresser la barre et fournir à minima de quoi donner un sens à cette question.

    Tout ce que je peux te dire pour l'instant c'est de t'appuyer sur la structure du code HTML avec un parser: Simple HTML DOM si tu veux, mais je ne suis pas fan, le mieux étant d'utiliser les classes DOMBidule déjà fournies avec PHP. En tout cas, évite la recherche sauvage à coup de regex ou de fonctions pour les chaînes de caractères. Le HTML est un langage structuré, utilise cette structure.

  4. #4
    Futur Membre du Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    Avril 2020
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Lozère (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Avril 2020
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Bonsoir,
    Voici mon code php, je lui passe la variable $bic puis il retourne la page contenant le nom de la banque. Je cherche un moyen pour extraire le nom de la banque.
    Je serais reconnaissant pour toutes idées.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    <?php 
     
    include_once('simple_html_dom/simple_html_dom.php');
      /* Utilisation de Curl */
     
    //On stock la valeur des variables POST
     $url='https://bank.codes/swift-code-checker/';
    $bic='PFSRIE21XXX';
     
    $data=array(
        'swift' => $bic) ;
    $fields_string = http_build_query($data);
     
    //Initialisation de curl dans $ch
    $ch = curl_init();
     
    curl_setopt($ch, CURLOPT_URL, $url); //Page sur laquelle envoyer les POST autrement dit la page vers laquelle pointe le formulaire
    curl_setopt($ch, CURLOPT_POST, 1);
    curl_setopt($ch, CURLOPT_POSTFIELDS,$fields_string); //On envoie les valeurs 
    curl_setopt($ch, CURLOPT_FAILONERROR, true); // Required for HTTP error codes to be reported via our call to curl_error($ch)
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
     
     
    $data = curl_exec($ch); //Recuparation de la page
    curl_close($ch);
     
    $html = file_get_html($data);
    echo $data;
     
    //$pattern=''; //regex pour BIC EU
    //preg_match_all('/'.$pattern.'/', $data, $out);
    //print_r($out);
     
    // clean up memory
    $html->clear();
    unset($html);
     
     ?>

  5. #5
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    I. Le chargement de la page

    Il y a deux possibilités pour charger une page qui nécessite l'envoi de données POST:
    • Soit on utilise cURL comme tu l'as fait.
    • Soit on utilise le contexte de flux. Le contexte de flux permet de préciser dans quelles conditions le chargement d'un flux de données doit s'effectuer lorsqu'on utilise certaines fonctions ou méthodes qui le prennent en compte. Par exemple, la fonction file_get_contents() a pour troisième paramètre le contexte de flux qui lui est associé. On peut donc obtenir la chaîne du fichier de cette manière:
      Code : Sélectionner tout - Visualiser dans une fenêtre à part
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      $options = [
          'http' => [
              'method' => 'POST',
              'header' => 'Content-type: application/x-www-form-urlencoded',
              'content' => http_build_query( [ 'swift' => 'CITIUS33XXX' ] )
          ]
      ];
       
      $context = stream_context_create($options);
       
      $html = file_get_contents($url, true, $context);


    II. Le parsage du HTML, création de l'arbre DOM
    Une fois qu'on a obtenu la chaîne de caractères du fichier html, on peut créer l'arbre DOM:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    $dom = new DOMDocument;
    $dom->loadHTML($html);
    Mais si on utilise le contexte de flux, on peut directement créer l'arbre DOM à partir de l'url du fichier:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    libxml_set_streams_context($context);
    $dom = new DOMDocument;
    $dom->loadHTMLFile($url);
    Ces deux méthodes vont créer l'arbre DOM: une structure de données de forme arborescente munie de méthodes permettant de l'interroger en accédant à tel ou tel nœud (DOMNode) ou liste de nœuds (DOMNodeList), voire aux attributs (DOMattribute) comme une classe, un href ou un id.

    NB: Bien souvent, on se trouve confronté à du html de piètre qualité truffé d'erreurs (comme de balises non-fermées), or, ces erreurs, même si elles sont sans conséquences sur le travail que l'on cherche à effectuer, peuvent provoquer l'affichage de messages d'erreurs. Il est possible de l'éviter en plaçant en amont du script (avant les méthodes DOMDocument::load...) l'instruction libxml_use_internal_errors(true); qui renverra ces erreurs vers un tableau plutôt que de les afficher.

    III. Interroger l'arbre DOM
    La classe DOMNode dont hérite DOMDocument dispose de méthodes et de propriétés permettant d'obtenir d'autres instances de DOMNode(des nœuds) ou des listes de nœuds (DOMNodeList). Elles sont de deux natures:
    • soit elles permettent une recherche dans tous les nœuds enfants et leurs descendants selon un critère comme par exemple: $node = $dom->getElementById('idToto') ou $nodeList = $dom->getElementsByTagName('div').
    • soit elles permettent d'accéder au voisinage immédiat du nœud dont il est question et à ses propriétés (nœud parent, nœuds enfants, nœuds adjacents, attributs).


    Ceci étant, et bien que ces possibilités permettent de joindre n'importe quel objet de cet arbre, elles s'avèrent d'un usage mal-aisé dés lors qu'il s'agit d'atteindre une partie précise parmi une multitude de nœuds ou une partie "profonde" de l'arbre.
    C'est pour cette raison qu'il existe XPath, une langage essentiellement descriptif qui permet, un peu à la manière d'une URL, de préciser de manière concise le ou les objets recherchés. Par exemple, pour accéder à l'url monlien.html en partant de la racine dans
    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    <html>
        <head></head>
        <body>
            <div class="truc">
                <p>
                    <a href="monlien.html">monlien</a>
                </p>
            </div>
            <div>
                <a href="autrelien.html">autrelien</a>
            </div>
        </body>
    </html>
    , un chemin XPath possible sera: /html/body/div[@class="truc"]/p/a/@href.

    C'est muni de cet outil que l'on va pouvoir atteindre les informations souhaitées. Donc la chose à faire n'est pas une recherche aveugle avec une regex, mais plutôt une observation minutieuse du code html pour déterminer le chemin menant aux données qui nous intéressent.




    En observant le code html on remarque que les données qui nous intéressent se trouvent toutes dans une balise table qui en plus est unique dans le document. Ça simplifie énormément les choses car on pourra écrire les requètes XPath en la prenant comme point de départ.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    $url = 'https://bank.codes/swift-code-checker/';
     
    $options = [
        'http' => [
            'method' => 'POST',
            'header' => 'Content-type: application/x-www-form-urlencoded',
            'content' => http_build_query( [ 'swift' => 'CITIUS33XXX' ] )
        ]
    ];
     
    $context = stream_context_create($options);
     
    libxml_set_streams_context($context);
     
    libxml_use_internal_errors(true);
     
    $dom = new DOMDocument;
    $dom->loadHTMLFile($url);
     
    $xp = new DOMXPath($dom);
     
    $tableNode = $dom->getElementsByTagName('table')->item(0);
     
    echo $xp->evaluate('string(./tr[./td="Swift Code"]/td[2])', $tableNode), PHP_EOL,
         $xp->evaluate('string(./tr[./td="Bank"]/td[2])', $tableNode), PHP_EOL; // etc.

  6. #6
    Futur Membre du Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    Avril 2020
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Lozère (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Avril 2020
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Bonjour
    Je vous remercie beaucoup pour votre aide, le code marche parfaitement.
    Grace a vous, j'ai pu faire beaucoup de recherche sur l'utilisation des contextes de flux, j'ai appris pal mal de choses.
    C'est une très bonne méthode pour l'envoi des données POST. Grace a cette cette méthode j'ai pu envoyer l'IBAN par post https://bank.codes/iban/validate/, ce qui me permet de récupérer toutes les infos que je souhaite.
    Je voudrais bien que vous m’expliquez le rôle de item(0) dans cette ligne de code.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $tableNode = $dom->getElementsByTagName('table')->item(0);
    Cordialement,
    Joey

  7. #7
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    Juste pour être clair, utiliser cURL pour obtenir la chaîne html puis la charger via $dom->loadHTML($html) est une méthode tout aussi correcte. C'était juste pour montrer qu'il était possible d'utiliser des fonctions ou des méthodes de flux comme file(), file_get_contents(), fopen() ou DOMDocument::loadHTMLFile() et SplFileObject::__construct() même lorsqu'il faut passer des données en POST, renseigner le User Agent ou passer par un proxy, grâce à un contexte de flux.

    Pour ce qui est de $tableNode = $dom->getElementsByTagName('table')->item(0);, c'est très simple: la méthode DOMDocument::getElementsByTagName() renvoie une instance de la classe DOMNodeList avec tous les éléments trouvés (d'où le "s" à Elements). La méthode item() est un simple getter pour accéder au enième élément de cette liste.
    Dans notre cas, comme il n'y en a qu'un, son index est donc 0.

    À noter: bien que DOMNodeList n'implémente pas l'interface ArrayAccess (probablement pour éviter d'être tenté de le modifier à la main), il est possible depuis PHP 5.6.3 d'utiliser la notation tableau: $tableNode = $dom->getElementsByTagName('table')[0];

  8. #8
    Futur Membre du Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    Avril 2020
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Lozère (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Avril 2020
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Merci pour votre réponse.
    Quand vous dites "La méthode item() est un simple getter pour accéder au enième élément de cette liste.
    Dans notre cas, comme il n'y en a qu'un, son index est donc 0
    ", vous parler de la balise <table>($tableNode = $dom->getElementsByTagName('table'))? Si oui, il n'y a en qu'un donc son index est 0 si j'ai bien compris.
    Merci
    Joey

  9. #9
    Expert éminent Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 888
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 888
    Points : 6 632
    Points
    6 632
    Par défaut
    Citation Envoyé par ananias10 Voir le message
    Merci pour votre réponse.
    Quand vous dites "La méthode item() est un simple getter pour accéder au enième élément de cette liste.
    Dans notre cas, comme il n'y en a qu'un, son index est donc 0
    ", vous parler de la balise <table>($tableNode = $dom->getElementsByTagName('table'))? Si oui, il n'y a en qu'un donc son index est 0 si j'ai bien compris.
    Merci
    Joey
    Voilà c'est ça.

  10. #10
    Futur Membre du Club
    Homme Profil pro
    Développeur Web
    Inscrit en
    Avril 2020
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Lozère (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Avril 2020
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Merci beaucoup!
    Je vous souhaite une bonne soirée
    Joey

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Batch] Extraire une chaîne de caractère avec une boucle for et delims
    Par zedude dans le forum Scripts/Batch
    Réponses: 5
    Dernier message: 02/05/2019, 09h25
  2. Réponses: 4
    Dernier message: 24/05/2010, 13h06
  3. Comment hacher une chaîne de caractères avec MD5
    Par dalilnet dans le forum Général Dotnet
    Réponses: 2
    Dernier message: 20/08/2008, 14h44
  4. [FAQ] Comment tester une chaîne de caractères avec une expression régulière ?
    Par Baptiste Wicht dans le forum Vos Contributions VBScript
    Réponses: 1
    Dernier message: 20/11/2007, 19h43
  5. Extraction d'une chaîne de caractère avec SQL
    Par opeo dans le forum MS SQL Server
    Réponses: 13
    Dernier message: 28/07/2006, 15h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo