Séparer des mots de balises HTML

**kandro** · 28/12/2011, 10h43

Bonjour,
dans le but de créer un "dictionnaire" du web en shell, j'ai du télécharger certaines pages internet grâce à la commande wget. J'aimerai connaitre le moyen de dissocier les mots contenus dans le fichier HTML obtenu des balises HTML. En effet dans le cas où on aurait quelque chose comme :

tralala<balise>blabla</balise><balise>truc</balise>muche

Ne pouvant prédire la longueur d'une telle chaîne, il me semble difficile de réaliser ce que je veux avec la commande sed. J'ai posé la question, et l'on m'a orienté vers la commande awk, j'ai lu le man de cette dernière, hors je ne vois toujours pas comment faire. Pourriez vous me donner un exemple d'utilisation afin que je puisse comprendre la commande et l'utiliser au mieux.

**frp31** · 28/12/2011, 11h14

tu peux tjrs faire un traitement global vers un fichier de résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

 sed 's/<.*>\(.*\)<\/.*>/ \1 /' truc.html > truc.txt

exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
[fpu@lnx ~] echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<.*>\(.*\)<\/.*>/ \1 /'
tralala truc muche
[fpu@lxnx ~]

**kandro** · 28/12/2011, 11h32

Merci de ta réponse, cependant il reste un problème, le texte d'entrée est :

tralala<balise>blabla</balise><balise>truc</balise>muche

Le texte de sortie est :

tralala truc muche

Il manque le blabla.

**zipe31** · 28/12/2011, 12h03

Salut,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
$ echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<[^>]*>/ /g'
tralala blabla  truc muche
 
$

Sinon, en récupérant directement que le texte de ta page html avec w3m, ça ne le ferait pas ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

w3m -dump $URL

**frp31** · 28/12/2011, 13h59

bien vu je connaissais pas la fonction...

**kandro** · 28/12/2011, 15h40

Merci, à vous deux pour vos réponses, je penses qu'avec ça j'aurai de quoi réussir mon projet.

Séparer des mots de balises HTML

Shell et commandes GNU

Discussions similaires

Partager

Partager