retirer les balises html d'une chaine de caractères

**johnaliashead** · 22/09/2010, 16h19

bonjour

j'aimerai savoir comment, avec une chaine de caractère donné, retirer les balises html et mettre bien sûr ce qu'il faut à la place, dans le cas où c'est possible .. ?

**Bluedeep** · 22/09/2010, 16h41

Un HTML étant, à la base, un XML, tu peux utiliser le XMLDom ou XMl Linq pour manipuler la structure.

**johnaliashead** · 22/09/2010, 16h52

ok mais as tu un exemple d'utilisation de ça?

**Bluedeep** · 22/09/2010, 16h54

Envoyé par johnaliashead

ok mais as tu un exemple d'utilisation de ça?

Pour ce cas particulier, non, mais c'est assez trivial a priori.

Tu prends le contenu du noeud HTML (ça tombe bien c'est celui de plus haut niveau) et tu le mets dans un autre document Xml.

Je ne vois pas trop bien quelle difficulté tu peux rencontrer à ce stade.

**johnaliashead** · 22/09/2010, 16h59

et bien ce que je ne comprend pas c'est que j'ai une chaine de caractère, contenant de l'html (balises, accentuation etc..) et j'aimerai faire une manip pour remplacer, par exemple, un <br> en \n etc.. et quelques lignes de code m'aiderai à y voir plus clair car je n'ai jamais fais cette manip, mais bon je vais creuser sur les indices que tu m'as donné

**Bluedeep** · 22/09/2010, 17h14

Envoyé par johnaliashead

et bien ce que je ne comprend pas c'est que j'ai une chaine de caractère, contenant de l'html (balises, accentuation etc..) et j'aimerai faire une manip pour remplacer, par exemple, un <br> en \n etc.. et quelques lignes de code m'aiderai à y voir plus clair car je n'ai jamais fais cette manip, mais bon je vais creuser sur les indices que tu m'as donné

Ah, je croyais que tu souhaitais enlever les balise <HTMl> et </HTML> du document; ce n'était pas vraiment clair.

Dans ce cas, la manip via Xml n'est pas forcément la plus simple.

Traite le document sous forme d'une chaine de caractére et utilise la méthode Replace, tout simplement.

Si tu veux faire des trucs plus sophistiqués, utilise éventuellement les RegEx.

Enfin, si ce que tu veux faire est vraiment tordu, utilise le XML Dom (ou XML Linq) pour sélectionner et lire le contenu, (ainsi tu peux sélectionner noeud à noeud par exemple) et le traitement de chaine pour faire tes remplacements.

**johnaliashead** · 22/09/2010, 17h33

arf oui c'est malheureusement bien ce que je pensais.. c'est dommage de devoir se palucher tous les replace et qu'il n'existe rien de déjà tout fait, ou même géré directement dans le framework.. va pour les regex et les replace alors.. merci pour ton aide

**Bluedeep** · 22/09/2010, 18h21

Envoyé par johnaliashead

arf oui c'est malheureusement bien ce que je pensais.. c'est dommage de devoir se palucher tous les replace et qu'il n'existe rien de déjà tout fait, ou même géré directement dans le framework..

Euh ... un framewok c'est quand même pas fait pour gérer des trucs marginaux.

Si tu as une structure précise de ton document HTML, tu peux aussi envisager une transfo XSLT.

**chrisdot** · 23/09/2010, 09h17

As tu essayé avec les expressions régulières? Pour un truc simple comme ça ça devrait le faire...

Oui, sinon XSLT c'est aussi une solution.

Sinon, il y a des librairies pour gérer le HTML, du style HTML agility pack

Christophe

**moumoune65** · 27/09/2010, 23h50

sinon il y a les Regex...c'est juste fait pour...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

var x = Regex.Replace("fjnsdfbds j<br/>eygfriezugrzeiur<br/>fdssd ", "<br/>", "\n", RegexOptions.Multiline);

**tomlev** · 28/09/2010, 00h06

Envoyé par Bluedeep

Un HTML étant, à la base, un XML, tu peux utiliser le XMLDom ou XMl Linq pour manipuler la structure.

Oui enfin en théorie... la plupart des parseurs XML ont besoin que le document soit bien formé (i.e. tags bien fermés, attributs entre guillemets, etc). C'est rarement le cas en HTML, sauf peut-être en XHTML strict

Envoyé par moumoune65

sinon il y a les Regex...c'est juste fait pour...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

var x = Regex.Replace("fjnsdfbds j<br/>eygfriezugrzeiur<br/>fdssd ", "<br/>", "\n", RegexOptions.Multiline);

Non, c'est pas "juste fait pour", c'est même assez mal adapté pour parser du HTML (voire complètement inadapté selon certains

)

Mais bon, là il s'agit pas vraiment de parser, juste d'enlever les tags, donc ça peut faire l'affaire. C'est quand même un peu du bricolage je trouve...

Envoyé par chrisdot

Sinon, il y a des librairies pour gérer le HTML, du style HTML agility pack

Sans doute la meilleure solution

**johnaliashead** · 30/09/2010, 09h55

ok merci pour tous ces conseil.. j'ai trouvé ce qu'il me fallait.. je fait une appli silverlight et j'ai utilisé un richTextEditor pour afficher mes infos, qui prend les caractères html pour les afficher normalement.. et ça tourne

retirer les balises html d'une chaine de caractères

C#

Discussions similaires

Partager

Partager