Bonjour,
dans le but de créer un "dictionnaire" du web en shell, j'ai du télécharger certaines pages internet grâce à la commande wget. J'aimerai connaitre le moyen de dissocier les mots contenus dans le fichier HTML obtenu des balises HTML. En effet dans le cas où on aurait quelque chose comme :
tralala<balise>blabla</balise><balise>truc</balise>muche
Ne pouvant prédire la longueur d'une telle chaîne, il me semble difficile de réaliser ce que je veux avec la commande sed. J'ai posé la question, et l'on m'a orienté vers la commande awk, j'ai lu le man de cette dernière, hors je ne vois toujours pas comment faire. Pourriez vous me donner un exemple d'utilisation afin que je puisse comprendre la commande et l'utiliser au mieux.
Partager