Extraction de données d'un .csv en bash

**Ezzmazz** · 18/02/2019, 11h18

Bonjour !

Bon, je préviens, j'annonce un gros pavé pour expliquer mon problème ! Je vais essayer de détailler le plus possible les commandes que j'utilise !

J’ai un petit soucis avec le fait d’extraire des données de plusieurs fichiers .csv en bash :

J’ai deux fichiers csv, un pour le mois de novembre et un autre pour le mois de décembre. Les deux ont 15 colonnes, mais l’un est composé de 5200 lignes et l’autre de 5204 lignes. Les noms des colonnes sont les mêmes dans les deux fichiers et tout est classé de la même manière.
On me demande de comparer les résultats de la colonne “O” des deux fichiers et deux trouver le nom des volumes qui ont disparus et ceux qui sont apparus entre temps. Voilà où j’en suis :

Pour faire la différence entre les deux colonnes, j’extrait d’abord la colonne qui m’intéresse des deux fichiers :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
cut -d’,’ -f15 fichierNovembre.csv > fichier1.csv
cut -d’,’ -f15 fichierDecembre.csv > fichier2.csv

Ainsi, j’ai deux fichiers csv avec les colonnes qui m’intéressent. Il me reste plus qu’à les soustraires :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk ‘{getline t<”fichierNovembre.csv”; print $0-t}’ fichierDecembre.sv > fichier3.csv

J’obtiens bien un troisième .csv avec la différence des deux colonnes. Le problème, c’est que je perds l’en-tête avec le nom de la colonne. Il est remplacé par un 0. Donc je suis obligé de supprimer la ligne avec le 0 et d’ajouter l’en-tête manuellement avec la commande sed, ce n’est pas pratique.

Ensuite, pour voir les volumes qui sont apparus entre temps et ceux qui ont disparus, je fais la même chose, j’extrais des fichiers la colonne avec le nom des volumes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
cut -d’,’ -f2 fichierNovembre.csv > fichier4.csv
cut -d’,’ -f2 fichierDecembre.csv > fichier5.csv

Puis je fais la différence entre les deux :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

diff -u fichier4.csv fichier5.csv > fichier6.csv

Dans ce .csv, les fichiers disparus sont représentés par les “-” et ceux qui sont apparus par des “+”. Il y a aussi des “@” qui sont apparus mais je ne sais pas à quoi ils servent. Je décide donc de faire deux fichiers, un qu’avec les “-” et un autre qu’avec les “+” tout en supprimant les “@” :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
grep ‘-’ fichier6.csv > fichier7.csv
grep ‘+’ fichier6.csv > fichier8.csv
grep -v ‘@’ fichier7.csv > fichier9.csv
grep -v ‘@’ fichier8.csv > fichier10.csv

De ce fait, j’obtiens trois .csv :

Celui avec la différence entre les volumes > fichier3.csv
Celui avec les volumes qui ont disparus > fichier9.csv
Celui avec les volumes qui ont apparus > fichier10.csv

Mais je dois également ajouter deux fichiers en plus : un qu’on nommera fichier11.csv , celui avec la référence des volumes, histoire que je puisse savoir à quel volume appartient tel chiffre de la colonne “O” extrait dans le fichier3.csv, une fois face à face, et un autre avec le nom des volumes, qu’on nommera fichier12.csv ( je ne sais pas si c’est très clair… ). Donc au total, j’ai 5 fichier.csv

On est d’accord que ce n’est pas pratique, mais ce sont les premières commandes qui me sont venues. J’ai tout “ automatisé ” en insérant ces commandes dans un script. J’ai juste à donner les deux fichiers à traiter en paramètres et tout ce fait automatiquement.

Le problème maintenant, c’est que je dois rendre le tout dans un seul fichier csv, pour celà, j’utilise la commande diff -y :

Je fusionne le fichier avec la référence et le nom des volumes entre eux :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

diff -y fichier11.csv fichier12.csv > fichier13.csv

Le problème avec cette commande c’est que la colonne qui est dans le fichier11.csv et celle qui est dans le fichier13.csv sont séparés par 6 colonnes. Elles ne sont pas côte à côte. Et en plus de ça, il y a une colonne qu’avec des pipes juste avant la colonne 6. Mais admettons que ce n’est pas trop grave.

Il faut ensuite que je fusionne ce fichier contenant la référence et le nom des colonnes avec la colonnes que j’ai extrais pour faire la différence entre les volumes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

diff -y fichier13.csv fichier3.csv > fichier14.csv

Je devrais avoir 3 colonnes dans mon fichier14.csv, j’en ai que deux car la colonne du fichier3.csv a remplacé la deuxième colonne du fichier14.csv au lieu de se mettre à la suite…

Auriez-vous une solution pour fusionner mes fichier csv en un seul fichier ?

Merci d’avance !

**Flodelarab** · 18/02/2019, 11h50

Bonjour

Cas typique de réalisation avant la conception ! (Et peut-être même avant les spécifications

... voire le cahier des charges

)
Tu peux empiler des milliers de lignes de code inutiles avec cette méthode.
Te rends-tu compte que, dans tout ce message indigeste, tu n'as même pas exprimer d'objectif ?

Un awk après un cut, et on comprend le ridicule de l'affaire.
Empiler des cut, des awk, des grep, etc n'est pas la bonne méthode.

Quel est le vrai but ?
Donne un exemple concret de sortie souhaitée.

**Ezzmazz** · 18/02/2019, 12h10

Merci pour ta réponse !

Le but ici est de :

Rapporter la différence entre chaque volume. (Colonne 'O' des fichiers.csv)
Identifier les nouveau volumes
Identifier les volumes supprimés

Ces informations doivent ensuite être mise dans un fichier.csv de ce type :

NomDesController	NomDesVolumes	VolumeUtilisé(MB)	VolumesSupprimés	VolumesAjoutés
Controller1	Volumemachin	9999	Volumetruc	VolumeBidule
Controller2	Volumetoto	3333	Volumemichel	VolumePierre

Voilà le résultat que j'aimerais obtenir !

**Flodelarab** · 18/02/2019, 12h47

Rapporter la différence entre chaque volume.

Donc 5 000 volumes donneront 12 497 500 comparaisons ?

Ces informations doivent ensuite être mise dans un fichier.csv de ce type :

As-tu compris que l'habitude est de traiter les fichiers ligne à ligne ?
Donc mélanger les informations par colonne n'est pas bon.
"VolumeMachin" n'a aucun rapport avec "Volumetruc", alors qu'ils sont sur la même ligne, dans ton exemple.

Mettre en ligne les colonnes serait moins mauvais.
Faire des listes dans des fichiers séparés serait même bon.

**Ezzmazz** · 18/02/2019, 13h54

Je pense que je me suis mal exprimé !

Envoyé par Flodelarab

Donc 5 000 volumes donneront 12 497 500 comparaisons ?

Non, 5000 volumes donneront 5000 comparaisons.
Ce sont les mêmes volumes dans les deux fichiers. Ce que je veux, pas exemple, c'est que le volume qui occupe la ligne 2 du tableau du mois de novembre soit comparé à lui même, mais dans le tableau du mois de décembre. Donc il faudrait comparer la ligne 2 du tableau de Novembre à la ligne 2 du tableau de Décembre. Le problème c'est que les tableaux sont composés de 18 colonnes et je n'ai pas besoin de toutes les colonnes. D'où l'idée d'extraire la colonne qui m'intéresse des deux fichiers .csv pour ensuite les comparer et mettre le résultats dans un troisième fichier.

Envoyé par Flodelarab

As-tu compris que l'habitude est de traiter les fichiers ligne à ligne ?
Donc mélanger les informations par colonne n'est pas bon.
"VolumeMachin" n'a aucun rapport avec "Volumetruc", alors qu'ils sont sur la même ligne, dans ton exemple.

Du coup c'est juste un problème de présentation dans mon fichier ?

Mise à part les volumes supprimés et ceux ajoutés, les trois autres colonnes ont bien un rapport entre elles. Mais disons que ce serait un fichier " Compte rendu " et qu'il faudrait que toutes ces informations y soient. Donc a la limite il faudrait juste pour que ce soit plus " clair " que les colonnes volumes supprimés et volumes ajoutés soient en dessous des autres colonnes, histoire qu'on ne confonde pas.

**N_BaH** · 18/02/2019, 15h00

Bonjour,

quand on doit traiter des champs/colonnes on utilise awk, au minimum.
tu peux "prototyper" en bash, mais ce sera toujours plus rapidement traité en awk.

donc, tout faire en awk, directement, après avoir élaboré un algorithme des traitements à effectuer.

moi, sans exemples représentatifs (lignes normales, exceptions...) des fichiers à traiter, et sans sortie correspondante attendue, je ne bouge pas un neurone.

**Christophe** · 18/02/2019, 18h18

Autre approche :
1 diff pour identifier les changements, et traitement du résultat pour générer un nouveau fichier.

**becket** · 18/02/2019, 18h43

En imaginant que la sortie de tes fichiers sont triées ( ou en triant le contenu )

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
 
 
$ cat Fichier1.csv
NomDesController NomDesVolumes  VolumeUtilisé(MB)       VolumesSupprimés        VolumesAjoutés
Controller1     Volumemachin    9999    Volumetruc      VolumeBidule
Controller2     Volumebrol      2333    Volumebidule    Volumechose
Controller3     Volumetoto      3333    Volumemichel    VolumePierre
$ cat Fichier2.csv
NomDesController NomDesVolumes  VolumeUtilisé(MB)       VolumesSupprimés        VolumesAjoutés
Controller1     Volumemachin    9999    Volumetruc      VolumeBidule
Controller3     Volumetoto      3333    Volumemichel    VolumePierre
$ join   -a2 -21 -11  Fichier2.csv Fichier1.csv  | awk ' NF == 5 { print $0 }'
Controller2 Volumebrol 2333 Volumebidule Volumechose

**Flodelarab** · 18/02/2019, 19h27

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
$ cat volumes1.txt
NomDesController;NomDesVolumes;VolumeUtilisé(MB);Autres
Controller1;Volumemachin;9999;
Controller2;Volumetoto;3333;
Controller3;Volumetruc;0;
Controller4;Volumemichel;0;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
$ cat volumes2.txt
NomDesController;NomDesVolumes;VolumeUtilisé(MB);Autres
Controller1;Volumemachin;9969;
Controller2;Volumetoto;3363;
Controller3;VolumeBidule;0;
Controller4;VolumePierre;0;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
$ awk -F';' '(FNR==1){next;} (FNR==NR){t[$2]=$3;next;} {if (t[$2]!=0) printf("%s  %+d\n",$2,$3-t[$2]); else print $2,"ajouté";v[$2]=1;} END{for (n in t) if (v[n]==0) print n,"supprimé";}' volumes1.txt volumes2.txt
Volumemachin  -30
Volumetoto  +30
VolumeBidule ajouté
VolumePierre ajouté
Volumetruc supprimé
Volumemichel supprimé

Invité · 18/02/2019, 22h23

Bonjour,

Comme évoqué plus haut 3 solutions :

* comparaison de fichier à fichier ... Très lourd car il faut contrôler A dans B et B dans A ... en gardant ce qui est d'un côté et pas de l'autre ...
* comparaison de table a table via SQL
* comparaison de table a table via Excel et recherchev

La comparaison de 2 tables par ce type de recherche me semble bien trop gourmande en temps de calcul ...

**AKAmêmeNom** · 18/02/2019, 22h59

tu veux pas plutôt lancer un satellite pour rediriger l'énergie du plus proche trou noir afin d'alimenter un super calculateur quantique pour additionner 1 + 1 ?

**Ezzmazz** · 19/02/2019, 09h22

Merci pour vos réponses ! Je vais étudier tout ça ! L'awk n'a pas l'air si simple que ça !

Envoyé par AKAmêmeNom

tu veux pas plutôt lancer un satellite pour rediriger l'énergie du plus proche trou noir afin d'alimenter un super calculateur quantique pour additionner 1 + 1 ?

**Flodelarab** · 19/02/2019, 12h10

(FNR==NR){ ... ;next;} { ... } est une structure classique. La première accolade s'applique au premier fichier (pour bilan); la deuxième accolade s'applique aux fichiers suivants (pour action).
t est le tableau des tailles.
v est le tableau qui indique si on a vu le volume dans le fichier 2.
printf est juste pour faire apparaître le signe + ou - devant la différence de taille.

Pour tout le reste, lire un tutoriel awk est suffisant pour comprendre.

**Ezzmazz** · 02/04/2019, 15h30

Bon... Monsieur débutant en bash est de retour !

Avec l'alternance, j'ai pas trop eu le temps passer sur le forum, mais j'ai développer un petit script qui fait l'affaire pour le moment ! ( Mais vous vous doutez bien qu'il est moche, hein

)

Déjà, les fichiers csv à analyser :

Fichier 1 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
NO1,NF_B000014,81920,23290,28,20480,22211,108,-16,0,100000000,none,online,,45501,none,Alo1
 
NO1,N_000000,81920,63,0,20480,68,0,0,0,2464966,none,online,,131,none,Alo1
 
NO1,NG_VM31_B000001,81920,61,0,20480,69,0,0,0,2498120,none,online,,130,none,Alo2
 
NO1,NO_VM31_GRERW0I2_B000002,203162,87,0,50790,142,0,0,0,100000000,none,online,,229,none,,Alo1
 
NO1,NJ_000004,305562,57467,19,76390,102,0,0,0,100000000,none,online,,57569,none,NA
 
NO1,NK_O09AE8,421888,221682,53,105472,200,0,0,0,100000000,none,online,,221882,none,NA
 
NO1,NL_098JD,51558,7,0,2714,31,1,0,0,100000000,none,online,,38,none,Alo3
 
NO1,NV_IUDS,10312,40,0,543,14,3,0,0,100000000,none,online,,54,none,Alo4

Fichier 2 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
NO1,NF_B000014,81920,23290,28,20480,22211,108,-16,0,100000000,none,online,,5432,none,Alo1
 
NO1,N_000000,81920,63,0,20480,68,0,0,0,2464966,none,online,,987,none,Alo1
 
NO1,NG_VM31_B000001,81920,61,0,20480,69,0,0,0,2498120,none,online,,34,none,Alo2
 
NO1,NO_VM31_GRERW0I2_B000002,203162,87,0,50790,142,0,0,0,100000000,none,online,,2,none,,Alo1
 
NO1,NJ_000004,305562,57467,19,76390,102,0,0,0,100000000,none,online,,457,none,NA
 
NO1,NK_O09AE8,421888,221682,53,105472,200,0,0,0,100000000,none,online,,834,none,NA
 
NO1,NL_098JD,51558,7,0,2714,31,1,0,0,100000000,none,online,,587,none,Alo3
 
NO1,NV_IUDS,10312,40,0,543,14,3,0,0,100000000,none,online,,54,none,,Alo4

Le fichier avec les " mots clés " :

Alo1
Alo2
Alo3
Alo4

Comme vous pouvez le voir dans ces deux extraits de fichier, les csv sont toujours composé de la même manière.

Voilà donc mon script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
 
#!/bin/bash
while read jour
do
        grep -wf "$1" "$2" | awk -F',' '{if(f!=$1)print"\n"; f=$1; print $0;}' | awk -F',' '{print $1","$2","$15","$17}' > test1.csv
        grep -wf "$1" "$3" | awk -F',' '{if(f!=$1)print"\n"; f=$1; print $0;}' | awk -F',' '{print $1","$2","$15","$17}' > test2.csv
 
done <"$1"
 
paste -d, test1.csv <(echo) <(echo) test2.csv > FINAL.csv
 
 
awk -F',' '{print $3}' FINAL.csv > FINAL1.csv
awk -F',' '{print $9}' FINAL.csv > FINAL2.csv
awk '{getline t<"FINAL1.csv"; print $0-t }' FINAL2.csv > VERSION_FINAL_1.csv
 
paste -d, FINAL.csv <(echo) VERSION_FINAL_1.csv > Difference_Volume_Conso.csv
 
 
rm test1.csv test2.csv FINAL.csv FINAL1.csv FINAL2.csv VERSION_FINAL_1.csv

C'est légèrement plus propre que ce que je proposais juste avant... Et ça fonctionne !

Je lance mon script comme cela : ./monscript.sh fichier_mot_clé.csv fichier1.csv fichier2.csv

Pour expliquer un peu ce que je voulais faire, dans l'ordre :

- La boucle while me permet de lire mes fichiers csv, de ne garder que les 4 colonnes qui m'intéressent et d'extraire uniquement les lignes dans lesquelles se trouvent un des mots présents dans le fichiers contenant les " mots clés ".

- Le " paste -d " me permet de coller les deux fichiers csv que j'obtiens avec ma boucle afin de les avoir bien face à face, c'est plus facile pour comparer les valeurs.

- Les 3 lignes avec awk : la première ligne va extraire la troisième colonne du premier fichier généré par la boucle, la deuxième ligne fait la même chose avec le deuxième fichier généré et la troisième ligne va soustraire les valeurs des deux fichiers csv pour en créer qu'un seul.

- La ligne " paste -d " va fusionner le fichiers obtenus par le premier " paste -d " avec le fichier obtenu avec les awk.

- La ligne avec le rm supprime tous les fichiers qui ne me servent plus à la fin.

Ce qui donne :

Nom : 1554210876-screenshot-from-2019-04-02-15-13-37.png
Affichages : 4031
Taille : 19,4 Ko

Nom : 1554210876-screenshot-from-2019-04-02-15-13-37.png
Affichages : 4031
Taille : 19,4 Ko

A gauche j'ai mon fichier test2.csv, au milieu mon fichier test1.csv et à droite, mon fichier avec le calcul.

Voilà ! J'aimerai le modifier afin de l'améliorer, en utilisant mieux awk notamment, la je bricole comme je peux

. Mais celà dit, ça me fait gagner un temps de fou !

En regardant un peu awk, je ne comprends pas comment je peux traiter mes fichiers autrement. En insérant le contenu de mon fichier " mots_cles.csv " dans un tableau, comme cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk -F"\n" '{a[$1]} END { for (i in a) {print i}}' mots_cles.txt

Puis-je extraire les lignes qui m'intéressent comme le fait mon script ?

N'hésitez pas à me corriger, tant que ça reste dans le respect, toutes les critiques et conseils seront acceptés avec plaisir !

Merci d'avance pour votre aide !

Extraction de données d'un .csv en bash

Shell et commandes GNU

Discussions similaires

Partager

Partager