Grep Uniq sur colonne dans un fichier CSV en KSH

**luckythrice** · 08/07/2009, 10h19

Bonjour à tous,

Voici un problème en programmation Shell (KSH) auquel je suis exposé et dont j'aimerai bien trouver une solution.

A partir d'un fichier CSV contenant une 20aine de champs, je dois extraire les lignes dont le champ contenant l'e-mail ne doit pas être dupliqué dans les autres lignes (donc unique). Le problème majeur est que le fichier CSV contient des milliers de lignes (~ 300.000) et qu'un algorithme avec des boucles (WHILE, FOR ou UNTIL) ne serait pas les bienvenus vu le temps de traitement que cela prendrait. Par contre j'ai à ma disposition AWK et/ou SED.

Exemple de fichier en entrée :

1,u,toto@mail.com
2,v,titi@mail.com
3,w,tutu@mail.com
4,x,tata@mail.com
5,y,titi@mail.com

Doit devenir en fichier de sortie :

1,u,toto@mail.com
3,w,tutu@mail.com
4,x,tata@mail.com

Merci d'avance pour votre aide !

**gangsoleil** · 08/07/2009, 15h26

Bonjour,

Pourquoi as-tu supprime titi@mail.com ?

As-tu regarde sort -u ?

**luckythrice** · 08/07/2009, 15h49

Envoyé par gangsoleil

Pourquoi as-tu supprime titi@mail.com ?

...

Parce que c'est un mail en doublon que je désire éliminer du fichier initial !

**jmelyn** · 08/07/2009, 16h21

Bonjour,

La commande pour résoudre ton problème est sort:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sort -u -t ',' -k 3,3 fichier_entree > fichier_sortie

Si le champ mail est le dixième, l'option -k devient: -k 10,10.

**luckythrice** · 08/07/2009, 17h42

Merci, c'est intéressant mais malheureusement cette commande ne renvoie pas le bon résultat, la deuxième ligne est en trop :

4,x,tata@mail.com
2,v,titi@mail.com
1,u,toto@mail.com
3,w,tutu@mail.com

Il faut carrément supprimer toutes les lignes contenant titi@mail.com !

**jmelyn** · 08/07/2009, 19h01

Ah! Tu ne veux pas supprimer les doublons mais complètement supprimer les lignes dont les mails apparaissent plusieurs fois! C'est nettement plus compliqué. Il va falloir le faire en deux passes: la première pour détecter quelles sont les lignes en double et la seconde passe pour supprimer ces lignes. Je regarde dans la soirée...

**luckythrice** · 08/07/2009, 19h50

Perso, voici ce que j'ai fait en attendant un code plus optimisé.

# on met dans un fichier les emails en doublon
cat fichier_input | cut -d ',' -f3 | sort | uniq -d > duplicate_emails
while read email
do
# on supprime les emails en doublon un par un
cat fichier_input | sed -e "/$email/d" > fichier_temp
cp fichier_temp fichier_input
done < duplicate_emails

C'est pas très propre et le traitement est long mais bon... ça marche !

**jmelyn** · 08/07/2009, 20h26

Bon, finalement j'utilise une méthode un peu différente:

Je trie d'abord le fichier en fonction des adresses email (donc les lignes avec les mêmes adresses apparaissent successivement).
Je n'imprime la ligne précédente que si son mail est différent de la ligne courante.

Résultat:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
sort -t ',' -k 3,3 fichier.init > fichier.tmp
awk -F ',' '
{
  if ($3 != prevMail)
  {
    if (prevPrint == 1)
    {
      print prevLine
    }
    prevLine = $0
    prevMail = $3
    prevPrint = 1
  }
  else { prevPrint = 0 }
}
END {if (prevPrint == 1) { print $0 }}' fichier.tmp > fichier.final

Il faudra bien tester le code avant de le passer en production!

Grep Uniq sur colonne dans un fichier CSV en KSH

Shell et commandes GNU

Discussions similaires

Partager

Partager