Garder les lignes les plus récentes

**toutwoui** · 17/07/2012, 08h41

Hello,

Mon soucis est relativement simple, j'ai un fichier dans ce style :

ID1,totoNew,tutuNew,totoNew
ID3,azea,aze,aze
ID1,toto,tutu,toto

L'idée est de le trier en supprimant les doublons sur clef. Dans un script j'effectue un sort -u sur l'id :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sort -t ',' -u -k 1,1 test.txt

J'avais fais des tests et trouvé que totoNew apparraissait toujours en premier, mais je viens de lire dans le man du sort :

sort does not guarantee preservation of relative line order-ing on equal keys.

En refaisant des tests, je me rends compte que le traitement des doublons sur clef est en effet assez aléatoire. Quelqu'un aurait une idée de comment récupérer les derniers enregistrement rapidement ? J'ai déjà essayé des solutions avec parcours de tous les ids avec des grep pour voir s'il apparaissait plus loins dans le fichier, mais vu la volumétrie, c'est bien trop gourmand pour pouvoir satisfaire mes besoins.

Merci d'avance pour toute aide éventuelle.

Yannick

**gangsoleil** · 17/07/2012, 14h49

Hum, je n'ai pas bien compris ce que tu veux faire...

Tu veux ne garder qu'une seule ligne contenant chaque motif ?

**jlliagre** · 18/07/2012, 08h19

Ca devrait le faire:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
awk '{printf("%d,%s\n",i++,$0);}' test.txt |
sort -t ',' -k 2,2 | awk -F, '
{
	idx=$2
	$1=""
	line=$0
	if(idx!=oldidx && oldidx!=0) printf("%s\n",oldline);
	oldidx=idx;
	oldline=line;
}
END {
	printf("%s\n",oldline);
}
'

**toutwoui** · 18/07/2012, 11h21

Merci beaucoup jlliagre, ça m'a l'air de faire exactement ce que je veux :-) Je vais faire des tests avec de plus gros volumes dans la journée, je mettrai une note si tout va bien, ou si tout ne va pas bien aussi d'ailleurs

En tout cas, merci !

Garder les lignes les plus récentes

Solaris

Discussions similaires

Partager

Partager