IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

Séparer des mots de balises HTML


Sujet :

Shell et commandes GNU

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 18
    Points : 16
    Points
    16
    Par défaut Séparer des mots de balises HTML
    Bonjour,
    dans le but de créer un "dictionnaire" du web en shell, j'ai du télécharger certaines pages internet grâce à la commande wget. J'aimerai connaitre le moyen de dissocier les mots contenus dans le fichier HTML obtenu des balises HTML. En effet dans le cas où on aurait quelque chose comme :

    tralala<balise>blabla</balise><balise>truc</balise>muche

    Ne pouvant prédire la longueur d'une telle chaîne, il me semble difficile de réaliser ce que je veux avec la commande sed. J'ai posé la question, et l'on m'a orienté vers la commande awk, j'ai lu le man de cette dernière, hors je ne vois toujours pas comment faire. Pourriez vous me donner un exemple d'utilisation afin que je puisse comprendre la commande et l'utiliser au mieux.

  2. #2
    Expert éminent sénior Avatar de frp31
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    5 196
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2006
    Messages : 5 196
    Points : 12 264
    Points
    12 264
    Par défaut
    tu peux tjrs faire un traitement global vers un fichier de résultat :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
     sed 's/<.*>\(.*\)<\/.*>/ \1 /' truc.html > truc.txt
    exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    [fpu@lnx ~] echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<.*>\(.*\)<\/.*>/ \1 /'
    tralala truc muche
    [fpu@lxnx ~]

  3. #3
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 18
    Points : 16
    Points
    16
    Par défaut
    Merci de ta réponse, cependant il reste un problème, le texte d'entrée est :

    tralala<balise>blabla</balise><balise>truc</balise>muche

    Le texte de sortie est :

    tralala truc muche

    Il manque le blabla.

  4. #4
    Expert éminent

    Profil pro
    Inscrit en
    Janvier 2011
    Messages
    1 946
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Janvier 2011
    Messages : 1 946
    Points : 6 276
    Points
    6 276
    Par défaut
    Salut,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    $ echo "tralala<balise>blabla</balise><balise>truc</balise>muche" | sed 's/<[^>]*>/ /g'
    tralala blabla  truc muche
     
    $
    Sinon, en récupérant directement que le texte de ta page html avec w3m, ça ne le ferait pas ?


  5. #5
    Expert éminent sénior Avatar de frp31
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    5 196
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 47
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2006
    Messages : 5 196
    Points : 12 264
    Points
    12 264
    Par défaut
    bien vu je connaissais pas la fonction...

  6. #6
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2011
    Messages
    18
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2011
    Messages : 18
    Points : 16
    Points
    16
    Par défaut
    Merci, à vous deux pour vos réponses, je penses qu'avec ça j'aurai de quoi réussir mon projet.

Discussions similaires

  1. Balisage des mots dans document HTML
    Par AI_LINUX dans le forum Développement Web en Java
    Réponses: 1
    Dernier message: 17/02/2012, 17h37
  2. [RegEx] Recherche de mots et balises HTML
    Par Tchupacabra dans le forum Langage
    Réponses: 11
    Dernier message: 18/08/2008, 20h00
  3. Séparer des mots et les concaténer
    Par TallyHo dans le forum Excel
    Réponses: 13
    Dernier message: 01/04/2007, 17h38
  4. faire passer des balise html d'un XML vers un XLS
    Par shaftJackson dans le forum XML/XSL et SOAP
    Réponses: 5
    Dernier message: 26/04/2006, 16h07
  5. pb affichage des photos incorporées par balises html
    Par laville dans le forum Balisage (X)HTML et validation W3C
    Réponses: 4
    Dernier message: 01/04/2005, 11h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo