Hello,
Mon soucis est relativement simple, j'ai un fichier dans ce style :
ID1,totoNew,tutuNew,totoNew
ID3,azea,aze,aze
ID1,toto,tutu,toto
L'idée est de le trier en supprimant les doublons sur clef. Dans un script j'effectue un sort -u sur l'id :
sort -t ',' -u -k 1,1 test.txt
J'avais fais des tests et trouvé que totoNew apparraissait toujours en premier, mais je viens de lire dans le man du sort :
sort does not guarantee preservation of relative line order-ing on equal keys.
En refaisant des tests, je me rends compte que le traitement des doublons sur clef est en effet assez aléatoire. Quelqu'un aurait une idée de comment récupérer les derniers enregistrement rapidement ? J'ai déjà essayé des solutions avec parcours de tous les ids avec des grep pour voir s'il apparaissait plus loins dans le fichier, mais vu la volumétrie, c'est bien trop gourmand pour pouvoir satisfaire mes besoins.
Merci d'avance pour toute aide éventuelle.
Yannick
Partager