Bonjour,
Avec ce script, je récupère la source d'une page web :
je lui applique différent traitement afin de n'avoir que le texte brut
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10 $file=fopen($URL,"r" ); if(!$file) { echo "<p>Impossible d\"ouvrir le fichier</p>.\n"; exit; } while(!feof($file)) { $line .= fgets($file,1024); }
après traitement je récupère du texte comme ceci :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11 // nettoyage du code // supprimer les retour a la ligne $line = str_replace("\n","",$line); // supprimer les retour chariot $line = str_replace("\r","",$line); // supprimer les tabulations $line = str_replace("\t","",$line); // supprimer les double espaces $line = str_replace(" ","",$line); // retirer les balise HTML $line = strip_tags($line);
Malgré cela j'ai des caractères bizarres dans le texte brut comme des " " pour des espaces écrit en html ou encore des "’" pour des apostrophes.adresse : mairie, 3, rue de Verneuil, 27130 Les Barils<br>rue : rue de Verneuil,<br>code postal : 27130<br>ville : Les<br><br>adresse : maisons des associations, avenue Lénine, 76700 Gonfreville-l’Orcher<br>
Comment éviter ce genre de chose ? car après j'utilise des regex et ca fait des bugs a cause de ce genre de chose.
Partager