Traitement de Gros Fichiers

**Moi302** · 17/04/2013, 10h28

Bonjour,

J'ai créé un script de Comparaison de fichier .csv
La comparaison se passe très bien quand j’exécute le script avec des fichiers de petites taille (par exemple 1 Ko).
Par contre quand je le teste avec de gros fichiers (par exemple 150 Ko), le traitement ne s'effectue pas correctement.
Quelqu'un aurait déjà rencontré ce type de problème ??
J'ai rajouté le séparateur IFS dans mon script mais ça n'a rien donné.

Voici mon Code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
IFS='\n'    
while read Ligne2
do
  grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
 
  if [ $? -ne 0 ]
    then
     echo $Ligne2 >> $C1_Fichier_Resultat
  fi
done < $FichierB
unset IFS

Merci d'avance

**al1_24** · 17/04/2013, 10h54

le traitement ne s'effectue pas correctement

Tu as un message d'erreur ?
Le résultat n'est pas celui attendu ?

Quel est le contenu de ton fichier ? Le code de ton script ?

Penses-tu que nous ayons suffisamment d'informations pour te proposer ne serait-ce qu'une ébauche de piste de recherche ?

**Moi302** · 17/04/2013, 11h03

Bonjour et merci pour la réponse
Voici mon code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
 
IFS='\n'    
while read Ligne2
do
  grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
 
  if [ $? -ne 0 ]
    then
     echo $Ligne2 >> $C1_Fichier_Resultat
  fi
done < $FichierB
unset IFS

Je n'ai pas de message d'erreur. Mais dans mon fichier résultat, je n'ai pas le résultat attendu si la taille de mes deux fichiers (FichierA et FichierB) est trés importante.

**ok.Idriss** · 17/04/2013, 11h33

Bonjour.

Déjà tu peux simplifier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
 
if [ $? -ne 0 ]; then
    # ...
fi

par :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
if grep "$Ligne2" $FichierA >/dev/null 2>&1; then
    # ...
fi

Sinon peux-tu nous donner le contenu des fichier A et B pour qu'on y voie plus clair ? Il y a peut être des solutions plus optimisées... surtout si tes fichiers son gros.

Sinon une cause potentielle d'erreur : ton algo ne fonctionne que dans un sens. Tu va archiver les lignes du fichier B qui ne sont pas dans A et non pas celles qui sont dans A et pas dans B.

Idriss

**Moi302** · 17/04/2013, 11h52

Voici un exemple de ligne qu'on peut trouver dans les deux fichiers.

;;;;;123;49879;B49879;Mobile;Voix Fixe;Pack Business Entreprises;Accès;Switch managé supplémentaire 24 ports;Switch managé supplémentaire 24 ports;49879;B49879;;;0;1;RC;;;10005O;401;101;643;PBE_DEF;IF;Conquête;T3;SI;OSS_ULYSSE_ACCES_PBE;OSS_ULYSSE_SWIT;0;;;01/01/2009;;16185;G16185;75681;A75681;Type facturation;8;Drop Down;6;0;1;PDC+INI;0;1;;;FACT_TYPE;0;01/01/2009;01/01/2009;218271;V218271;VALIDATION_CONTRAT;1;;01/01/2009;01/01/2009;Oui

J'ai environ 500 lignes de ces types dans les deux fichiers
Au niveau de l'algorithme je n'ai pas de soucis, je l'ai testé avec des fichiers de petites tailles et ça me sort le résultat attendu

**ok.Idriss** · 17/04/2013, 12h00

Au niveau de l'algorithme je n'ai pas de soucis, je l'ai testé avec des fichiers de petites tailles et ça me sort le résultat attendu

Un test permet de limiter les erreurs, ne permet pas de garantir que tout fonctionne parfaitement

Je ré-itère donc ma question : souhaites-tu récupérer les lignes que les deux fichiers n'ont pas en commun ? Ou bien souhaites-tu uniquement les lignes de B qui ne sont pas dans A ?

Idriss

**disedorgue** · 17/04/2013, 12h44

Bonjour,

Et des fois, il serait bien de penser à utiliser la commande man, comme par exemple ici, un man grep, montrerait 2 options de grep (-v et -f) qui peuvent simplifier le script (on arrive à une seule ligne, du moins, par rapport au seules informations que l'on a)

**Moi302** · 17/04/2013, 13h37

Envoyé par ok.Idriss

Un test permet de limiter les erreurs, ne permet pas de garantir que tout fonctionne parfaitement

Je ré-itère donc ma question : souhaites-tu récupérer les lignes que les deux fichiers n'ont pas en commun ? Ou bien souhaites-tu uniquement les lignes de B qui ne sont pas dans A ?

Idriss

Je souhaite récupérer les lignes présentes dans B et absentes dans A

**disedorgue** · 17/04/2013, 21h03

A part la modification de la variable IFS qui est inutile ici et dangereuse pour le reste du script (si besoin, il faut la sauvegarder dans une autre variable pour la rétablir ensuite et non pas faire un unset dessus).
Comme on a pas tout le script, on suppose que le fichier $C1_Fichier_Resultat est vidé avant car sinon ton problème vient peut-être de là (il y a encore les ancien résultat de tes précèdents tests).

Sinon, cela peut venir des données elles-même qui faussent l'expression régulière, car pour moi ton script fonctionne avec les modifications que je te suggère plus haut.

Sinon, une autre façon de faire:
Ici, on veut savoir les lignes présentes dans le fichier B.txt mais absentes dans A.txt:
1) On trie le fichier B.txt et on s'arrange pour n'avoir qu'une seule fois les lignes en double:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sort -u B.txt

2) On double toutes les lignes du fichier A.txt (voici 2 façons de faire):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

cat A.txt A.txt

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sed -e 'p' A.txt

3) On trie la totalité des résultats (sort) puis on affiche que les lignes qui sont unique (uniq -u)

Ce qui donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(sort -u B.txt;cat A.txt A.txt) | sort | uniq -u

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

(sort -u B.txt;sed -e 'p' A.txt) | sort | uniq -u

Traitement de Gros Fichiers

Shell et commandes POSIX

Discussions similaires

Partager

Partager