Bonjour,
je cherche à supprimer des blocs de balises du code source d'une page HTML (par exemple <style>...</style> et tout ce qu'il y a entre ces deux balises).
Actuellement, j'utilise cette méthode, à laquelle je passe en paramètre la balise qui encadre le texte que je veux supprimer :
Code Java : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 private String ExeRegExp(String bal, String page) { String patternStrBase = "<(" + bal + ").*?</\\1>"; String replacementStr = ""; Pattern pattern = Pattern.compile(patternStrBase); Matcher matcher = pattern.matcher(page); page = matcher.replaceAll(replacementStr); return page; }
Ça fonctionne parfaitement pour <style> par exemple... mais pas pour <script>.
Je l'ai testé sur le code de la page d'accueil de Google.fr : les balises <script> et </script> sont bien éliminées... mais pas ce qu'il y avait entre les deux.
En revanche, l'ensemble de la feuille de style est bien éliminé.
Je me suis certainement fourvoyé quelque part... mais où ? (d'autant que je ne maîtrise pas trop les expression régulières...)
Merci pour vos réponses !
Alban
Partager