Convertir du code HTML en texte brut

**arnaudperfect** · 17/08/2008, 11h13

Bonjour,

Avec ce script, je récupère la source d'une page web :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
$file=fopen($URL,"r" );
	if(!$file)
	{
		echo "<p>Impossible d\"ouvrir le fichier</p>.\n";
		exit;
	}
	while(!feof($file))
	{
		$line .= fgets($file,1024);
	}

je lui applique différent traitement afin de n'avoir que le texte brut

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
// nettoyage du code
	// supprimer les retour a la ligne
	$line = str_replace("\n","",$line);
	// supprimer les retour chariot
	$line = str_replace("\r","",$line);
	// supprimer les tabulations
	$line = str_replace("\t","",$line);
	// supprimer les double espaces
	$line = str_replace("  ","",$line);
	// retirer les balise HTML
	$line = strip_tags($line);

après traitement je récupère du texte comme ceci :

adresse : mairie, 3, rue de Verneuil, 27130 Les Barils rue : rue de Verneuil, code postal : 27130 ville : Les adresse : maisons des associations, avenue Lénine, 76700 Gonfreville-l’Orcher

Malgré cela j'ai des caractères bizarres dans le texte brut comme des " " pour des espaces écrit en html ou encore des "’" pour des apostrophes.

Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.

**sabotage** · 17/08/2008, 14h19

Tu peux utiliser html_entity_decode() pour les entités HTML comme  

**arnaudperfect** · 18/08/2008, 22h51

je l'utilisais déjà mais après je les remettais, d'où le gros problème !

j'ai repris mon code et j'ai maintenant quelque chose de correcte

voici le code permettant de passer d'une page HTML en du texte brut :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
// nettoyage du code
$line = 'code HTML';
$line = strip_tags($line);
$line = html_entity_decode($line);
$line = preg_replace('~&#x([0-9a-f]+);~ei', 'chr(hexdec("\\1"))', $line);
$line = preg_replace('~&#([0-9]+);~e', 'chr("\\1")', $line);
$line = preg_replace('(\n|\r|\t)',' ',$line);
$line = preg_replace('/\s\s+/', ' ', $line); 
return $line;

merci pour ton indication !

++

Arnaud

Convertir du code HTML en texte brut

Langage PHP

Discussions similaires

Partager

Partager