IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Regex / Parser le sommaire de mediawiki


Sujet :

Langage PHP

  1. #1
    Invité
    Invité(e)
    Par défaut Regex / Parser le sommaire de mediawiki
    Bonjour, je cherche à récupérer le code HTML du sommaire d'un mediawiki.

    J'ai beau chercher, je ne trouve pas comment faire.

    J'ai besoin d'utiliser PHP.

    Un exemple pour le sommaire d'un wiki mediawiki :https://www.visionduweb.eu/wiki/inde...administrateur

  2. #2
    Candidat au Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Juillet 2018
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Juillet 2018
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Bonjour tu peux utiliser le code suivant pour aspirer tout le code HTML de la page :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
    $options = array(
      'http'=>array(
        'method'=>"GET",
        'header'=>"Accept-language: en\r\n" .
                  "Cookie: foo=bar\r\n"
      )
    );
    $context = stream_context_create($options);
    $string= file_get_contents('http://www.exemple.fr/', false, $context);
    echo $string;
    Ou bien tu peux aussi utiliser CURL :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
     
    $url = "http://www.exemple.fr";
    $options = array(
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_HEADER         => true,
    CURLOPT_FOLLOWLOCATION => false,
    CURLOPT_ENCODING       => "",
    CURLOPT_USERAGENT      => "spider",
    CURLOPT_SSL_VERIFYPEER => false,
    CURLOPT_SSL_VERIFYHOST => false,
    CURLOPT_AUTOREFERER    => true,
    CURLOPT_CONNECTTIMEOUT => 120,
    CURLOPT_TIMEOUT        => 120,
    CURLOPT_MAXREDIRS      => 10,
    );
    $ch = curl_init($url);
    curl_setopt_array($ch, $options);
    $string = curl_exec($ch);
    curl_close($ch);
    echo $string;
    Ensuite tu pourrais identifier manuellement les portions de code HTML qui entourent celle que tu veux récupérer et utiliser la fonction suivante pour récupérer le code html du sommaire :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
     
    function extraction($string, $debut, $fin){
    $pos = stripos($string, $debut);
    $str = substr($string, $pos);
    $str_two = substr($str, strlen($debut));
    $second_pos = stripos($str_two, $fin);
    $str_three = substr($str_two, 0, $second_pos);
    $unit = trim($str_three);
    return $unit;
    }
    Cette fonction PHP permet d'extraire une chaine de caractères en fonction des deux chaines de caractères qui l'entourent, celle qui précède et celle qui suit la chaine qui t'intéresse.

  3. #3
    Invité
    Invité(e)
    Par défaut
    Bonjour.

    Merci pour ton retour.

    Entre temps, j'ai réussi à récupérer le sommaire d'une page Mediawiki, avec le code suivant :
    https://www.visionduweb.eu/wiki/inde...r_une_page_PHP

    Par contre, récupérer toute la page HTML n'est pas propre pour l'afficher dans un document PDF.
    Je cherche encore à récupérer le contenu d'une page Mediawiki, et, uniquement le contenu de la page ( Sans le sommaire, sans le menu mediawiki ... )

    Il me semble que le plugin Wordpress " RDP Wiki Embed " permet d'intégrer le contenu de l'article, avec le skin Vector, sans afficher le menu.
    Je n'arrive pas à reproduire l'affichage du contenu uniquement.

Discussions similaires

  1. Réponses: 10
    Dernier message: 20/10/2011, 12h01
  2. Réponses: 1
    Dernier message: 15/05/2010, 20h32
  3. Réponses: 3
    Dernier message: 04/06/2009, 19h17
  4. Parser une requête HTTP/GET en c ! regex ?
    Par canard75 dans le forum C
    Réponses: 14
    Dernier message: 06/12/2005, 10h08
  5. Réponses: 9
    Dernier message: 30/11/2005, 18h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo