Regex / Parser le sommaire de mediawiki

Invité · 03/07/2018, 03h20

Bonjour, je cherche à récupérer le code HTML du sommaire d'un mediawiki.

J'ai beau chercher, je ne trouve pas comment faire.

J'ai besoin d'utiliser PHP.

Un exemple pour le sommaire d'un wiki mediawiki :https://www.visionduweb.eu/wiki/inde...administrateur

**orage878** · 23/07/2018, 20h08

Bonjour tu peux utiliser le code suivant pour aspirer tout le code HTML de la page :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
$options = array(
  'http'=>array(
    'method'=>"GET",
    'header'=>"Accept-language: en\r\n" .
              "Cookie: foo=bar\r\n"
  )
);
$context = stream_context_create($options);
$string= file_get_contents('http://www.exemple.fr/', false, $context);
echo $string;

Ou bien tu peux aussi utiliser CURL :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
 
$url = "http://www.exemple.fr";
$options = array(
CURLOPT_RETURNTRANSFER => true,
CURLOPT_HEADER         => true,
CURLOPT_FOLLOWLOCATION => false,
CURLOPT_ENCODING       => "",
CURLOPT_USERAGENT      => "spider",
CURLOPT_SSL_VERIFYPEER => false,
CURLOPT_SSL_VERIFYHOST => false,
CURLOPT_AUTOREFERER    => true,
CURLOPT_CONNECTTIMEOUT => 120,
CURLOPT_TIMEOUT        => 120,
CURLOPT_MAXREDIRS      => 10,
);
$ch = curl_init($url);
curl_setopt_array($ch, $options);
$string = curl_exec($ch);
curl_close($ch);
echo $string;

Ensuite tu pourrais identifier manuellement les portions de code HTML qui entourent celle que tu veux récupérer et utiliser la fonction suivante pour récupérer le code html du sommaire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
function extraction($string, $debut, $fin){
$pos = stripos($string, $debut);
$str = substr($string, $pos);
$str_two = substr($str, strlen($debut));
$second_pos = stripos($str_two, $fin);
$str_three = substr($str_two, 0, $second_pos);
$unit = trim($str_three);
return $unit;
}

Cette fonction PHP permet d'extraire une chaine de caractères en fonction des deux chaines de caractères qui l'entourent, celle qui précède et celle qui suit la chaine qui t'intéresse.

Invité · 24/07/2018, 11h58

Bonjour.

Merci pour ton retour.

Entre temps, j'ai réussi à récupérer le sommaire d'une page Mediawiki, avec le code suivant :
https://www.visionduweb.eu/wiki/inde...r_une_page_PHP

Par contre, récupérer toute la page HTML n'est pas propre pour l'afficher dans un document PDF.
Je cherche encore à récupérer le contenu d'une page Mediawiki, et, uniquement le contenu de la page ( Sans le sommaire, sans le menu mediawiki ... )

Il me semble que le plugin Wordpress " RDP Wiki Embed " permet d'intégrer le contenu de l'article, avec le skin Vector, sans afficher le menu.
Je n'arrive pas à reproduire l'affichage du contenu uniquement.

Regex / Parser le sommaire de mediawiki

Langage PHP

Discussions similaires

Partager

Partager