IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Applications et environnements graphiques Discussion :

[Grep] RegEx sur fichier avec séparateur ";"


Sujet :

Applications et environnements graphiques

  1. #1
    Membre habitué
    Inscrit en
    Octobre 2004
    Messages
    359
    Détails du profil
    Informations forums :
    Inscription : Octobre 2004
    Messages : 359
    Points : 141
    Points
    141
    Par défaut [Grep] RegEx sur fichier avec séparateur ";"
    Bonjour,

    Voici un exemple de fichier texte
    nom;prenom;age;sexe;CP;ville;identifiant;bool
    LeNom;LePrenom;18;H;75008;Paris;123456;0
    VV;Ap;19;H;69001;Lyon;456789;1
    VV;Bp;20;F;69002;Myon;789456;0
    VV;Cp;21;H;69003;Nyon;741852;1
    VV;Dp;22;H;69004;Oyon;852963;0
    VV;App;19;H;69005;Pyon;147258;1
    VV;Bpp;20;F;69006;Qyon;258369;0
    VV;Cpp;21;H;69007;Ryon;369258;1
    VV;Dpp;22;H;69008;Syon;258147;0
    VV;Appp;19;H;69009;Tyon;159263;1
    VV;Bppp;20;F;69010;Uyon;753869;0
    VV;Cppp;21;H;69011;Vyon;658452;1
    VV;Dppp;22;H;69012;Wyon;125458;0
    xAn;Ap;69;H;19001;Lyon;458796;1
    xBn;Bp;69;F;29002;Myon;569856;0
    xCn;Cp;69;H;39003;Nyon;696969;1
    xDn;Dp;69;H;49004;Oyon;123654;0
    xAnn;App;69;H;59005;Pyon;452123;1
    VV;Bpp;69;F;69006;Qyon;745213;0
    xCnn;Cpp;69;H;79007;Ryon;584126;1
    xDnn;Dpp;69;H;89008;Syon;69519;0
    xAnnn;Appp;69;H;99009;Tyon;369369;1
    xBnnn;Bppp;69;F;19010;Uyon;236985;0
    xCnnn;Cppp;69;H;29011;Vyon;214587;1
    xDnnn;Dppp;69;H;39012;Wyon;548755;0
    J'aimerai trouver une commande Grep qui retourne toutes les lignes qui ont un CP dans le 69 ?
    La seule ligne que j'ai pour le moment, et qui n'est pas très convainquante malgré qu'elle fonctionne presque, est :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    grep -E ";69[0-9][0-9][0-9];" exemple > sortie
    Ce qui serait parfait, c'est pouvoir cibler exactement l'expression régulière sur le 5eme champ (après les 4eme "point-virgule")

    Merci

    édit: Le résultat doit être les 13 lignes qui commencent par VV
    édit: J'ajoute également que la commande devra être optimisée, elle va tourner sur un fichier de +7Go

  2. #2
    Membre éclairé Avatar de jmelyn
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Septembre 2007
    Messages
    703
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux

    Informations forums :
    Inscription : Septembre 2007
    Messages : 703
    Points : 823
    Points
    823
    Par défaut
    Bonjour,

    Pourquoi faut-il que ce soit avec la commande grep? Est-ce que awk est acceptée aussi? Parce que c'est plus simple:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    awk -F ';' '$5 ~ /^69/' fichier_entree > fichier_sortie
    Je ne vérifie pas qu'il y a 3 caractères numériques qui suivent le 69 pour des questions de performances, mais en ciblant sur le 5e champ qui doit commencer par 69, il y a peu de risques d'erreur.

    Je serais curieux de voir les performances comparées de grep et awk dans ce cas.

    Edit: Oups, j'oubliais... Pour comparer, il faut les deux solutions, alors voici le grep:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    grep -E '^([[:alnum:]]+;){4}69' fichier_entree > fichier_sortie

  3. #3
    Membre expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Points : 3 378
    Points
    3 378
    Par défaut
    Bonjour,

    Sinon, avec grep :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    grep -E "^([^;]*;){4}69[[:digit:]]{3};" exemple > sortie
    L'encrage en début de ligne est nécessaire pour éviter de sélectionner la ligne ou le CP (ou au moins le motif commençant par 69) est dans le 7ème champs.

    Edit: je ne sais pas ce qui est le plus performant entre [[:digit:]]{3} et [0-9]{3} ... à tester sur un échantillon peut-être.

  4. #4
    Membre habitué
    Inscrit en
    Octobre 2004
    Messages
    359
    Détails du profil
    Informations forums :
    Inscription : Octobre 2004
    Messages : 359
    Points : 141
    Points
    141
    Par défaut
    Le grep n'est pas une obligation, je vais étudier toutes vos propositions,

    Merci

  5. #5
    Modérateur
    Avatar de N_BaH
    Profil pro
    Inscrit en
    Février 2008
    Messages
    7 589
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2008
    Messages : 7 589
    Points : 19 474
    Points
    19 474
    Par défaut
    egrep '(H|F);69'

  6. #6
    Membre éclairé Avatar de jmelyn
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Septembre 2007
    Messages
    703
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux

    Informations forums :
    Inscription : Septembre 2007
    Messages : 703
    Points : 823
    Points
    823
    Par défaut
    Il semble bien que '(H|F);69' fonctionne! Pourrais-tu expliquer, N_BaH, je ne vois rien dans le man et dans info. Moi, j'y vois juste "Homme + Femme --> 69", mais ça doit pas être la vraie réponse...

    Edit: OK, compris! Tu utilises le pattern "H ou F suivi de ;69". Il faut espérer que cela ne se reproduise pas ailleurs dans la ligne: le champ 4 peut soit être H ou F. Pour sécuriser un peu, on peut ajouter: ';(H|F);69'

  7. #7
    Membre expert
    Avatar de pitipoisson
    Homme Profil pro
    Chercheur
    Inscrit en
    Septembre 2006
    Messages
    1 942
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Chercheur
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 942
    Points : 3 378
    Points
    3 378
    Par défaut
    Citation Envoyé par jmelyn Voir le message
    Pour sécuriser un peu, on peut ajouter: ';(H|F);69'
    Et encore faut-il être certain que ce champs soit bien renseigné dans tous les cas... sur plusieurs centaines de milliers d'enregistrement, il peut y avoir eu des oublis !
    Même
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    egrep ";(F|H|);69" essai.txt
    n'est pas vraiment sûr (mais qu'est-ce qui l'est )

  8. #8
    Membre éclairé Avatar de jmelyn
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Septembre 2007
    Messages
    703
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux

    Informations forums :
    Inscription : Septembre 2007
    Messages : 703
    Points : 823
    Points
    823
    Par défaut
    Je suis tout-à-fait de ton avis, pitipoisson: Pour un fichier gérable à la main ça ne me ferait pas peur, je vérifie le fichier en jetant un coup d'oeil. Mais ici, impossible de détecter une erreur vu la taille du fichier.

    Quid si à la place de H il y a h? On peut aller loin dans la tolérance d'erreurs. C'est la raison pour laquelle je préfère utiliser awk qui compte les champs pour moi. Bon maintenant s'il manque un séparateur, le fichier perd sa cohérence...

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 11
    Dernier message: 17/01/2010, 14h10
  2. Réponses: 6
    Dernier message: 19/08/2009, 14h03
  3. Réponses: 29
    Dernier message: 27/08/2008, 09h41
  4. I/O sur fichiers avec JBoss
    Par FredKéKé dans le forum Wildfly/JBoss
    Réponses: 2
    Dernier message: 26/09/2006, 09h18
  5. Problème d'E.S. sur fichier avec open
    Par Bubonik software dans le forum C
    Réponses: 6
    Dernier message: 04/02/2004, 19h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo