IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes POSIX Discussion :

Traitement de Gros Fichiers


Sujet :

Shell et commandes POSIX

  1. #1
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2012
    Messages : 42
    Points : 60
    Points
    60
    Par défaut Traitement de Gros Fichiers
    Bonjour,

    J'ai créé un script de Comparaison de fichier .csv
    La comparaison se passe très bien quand j’exécute le script avec des fichiers de petites taille (par exemple 1 Ko).
    Par contre quand je le teste avec de gros fichiers (par exemple 150 Ko), le traitement ne s'effectue pas correctement.
    Quelqu'un aurait déjà rencontré ce type de problème ??
    J'ai rajouté le séparateur IFS dans mon script mais ça n'a rien donné.

    Voici mon Code

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    IFS='\n'    
    while read Ligne2
    do
      grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
     
      if [ $? -ne 0 ]
        then
         echo $Ligne2 >> $C1_Fichier_Resultat
      fi
    done < $FichierB
    unset IFS
    Merci d'avance

  2. #2
    Modérateur
    Avatar de al1_24
    Homme Profil pro
    Retraité
    Inscrit en
    Mai 2002
    Messages
    9 102
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 63
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Retraité
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2002
    Messages : 9 102
    Points : 28 399
    Points
    28 399
    Par défaut
    le traitement ne s'effectue pas correctement
    Tu as un message d'erreur ?
    Le résultat n'est pas celui attendu ?

    Quel est le contenu de ton fichier ? Le code de ton script ?

    Penses-tu que nous ayons suffisamment d'informations pour te proposer ne serait-ce qu'une ébauche de piste de recherche ?

  3. #3
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2012
    Messages : 42
    Points : 60
    Points
    60
    Par défaut
    Bonjour et merci pour la réponse
    Voici mon code

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    IFS='\n'    
    while read Ligne2
    do
      grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
     
      if [ $? -ne 0 ]
        then
         echo $Ligne2 >> $C1_Fichier_Resultat
      fi
    done < $FichierB
    unset IFS
    Je n'ai pas de message d'erreur. Mais dans mon fichier résultat, je n'ai pas le résultat attendu si la taille de mes deux fichiers (FichierA et FichierB) est trés importante.

  4. #4
    Rédacteur

    Avatar de ok.Idriss
    Homme Profil pro
    IS Consultant
    Inscrit en
    Février 2009
    Messages
    5 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : IS Consultant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2009
    Messages : 5 220
    Points : 19 452
    Points
    19 452
    Par défaut
    Bonjour.

    Déjà tu peux simplifier :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    grep "$Ligne2" $FichierA 2>/dev/null 1>/dev/null
     
    if [ $? -ne 0 ]; then
        # ...
    fi
    par :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    if grep "$Ligne2" $FichierA >/dev/null 2>&1; then
        # ...
    fi
    Sinon peux-tu nous donner le contenu des fichier A et B pour qu'on y voie plus clair ? Il y a peut être des solutions plus optimisées... surtout si tes fichiers son gros.

    Sinon une cause potentielle d'erreur : ton algo ne fonctionne que dans un sens. Tu va archiver les lignes du fichier B qui ne sont pas dans A et non pas celles qui sont dans A et pas dans B.

    Idriss

  5. #5
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2012
    Messages : 42
    Points : 60
    Points
    60
    Par défaut
    Voici un exemple de ligne qu'on peut trouver dans les deux fichiers.

    ;;;;;123;49879;B49879;Mobile;Voix Fixe;Pack Business Entreprises;Accès;Switch managé supplémentaire 24 ports;Switch managé supplémentaire 24 ports;49879;B49879;;;0;1;RC;;;10005O;401;101;643;PBE_DEF;IF;Conquête;T3;SI;OSS_ULYSSE_ACCES_PBE;OSS_ULYSSE_SWIT;0;;;01/01/2009;;16185;G16185;75681;A75681;Type facturation;8;Drop Down;6;0;1;PDC+INI;0;1;;;FACT_TYPE;0;01/01/2009;01/01/2009;218271;V218271;VALIDATION_CONTRAT;1;;01/01/2009;01/01/2009;Oui


    J'ai environ 500 lignes de ces types dans les deux fichiers
    Au niveau de l'algorithme je n'ai pas de soucis, je l'ai testé avec des fichiers de petites tailles et ça me sort le résultat attendu

  6. #6
    Rédacteur

    Avatar de ok.Idriss
    Homme Profil pro
    IS Consultant
    Inscrit en
    Février 2009
    Messages
    5 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : IS Consultant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2009
    Messages : 5 220
    Points : 19 452
    Points
    19 452
    Par défaut
    Au niveau de l'algorithme je n'ai pas de soucis, je l'ai testé avec des fichiers de petites tailles et ça me sort le résultat attendu
    Un test permet de limiter les erreurs, ne permet pas de garantir que tout fonctionne parfaitement

    Je ré-itère donc ma question : souhaites-tu récupérer les lignes que les deux fichiers n'ont pas en commun ? Ou bien souhaites-tu uniquement les lignes de B qui ne sont pas dans A ?

    Idriss

  7. #7
    Expert éminent sénior Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 302
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 302
    Points : 12 798
    Points
    12 798
    Par défaut
    Bonjour,

    Et des fois, il serait bien de penser à utiliser la commande man, comme par exemple ici, un man grep, montrerait 2 options de grep (-v et -f) qui peuvent simplifier le script (on arrive à une seule ligne, du moins, par rapport au seules informations que l'on a)

  8. #8
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2012
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2012
    Messages : 42
    Points : 60
    Points
    60
    Par défaut
    Citation Envoyé par ok.Idriss Voir le message
    Un test permet de limiter les erreurs, ne permet pas de garantir que tout fonctionne parfaitement

    Je ré-itère donc ma question : souhaites-tu récupérer les lignes que les deux fichiers n'ont pas en commun ? Ou bien souhaites-tu uniquement les lignes de B qui ne sont pas dans A ?

    Idriss

    Je souhaite récupérer les lignes présentes dans B et absentes dans A

  9. #9
    Expert éminent sénior Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 302
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 302
    Points : 12 798
    Points
    12 798
    Par défaut
    A part la modification de la variable IFS qui est inutile ici et dangereuse pour le reste du script (si besoin, il faut la sauvegarder dans une autre variable pour la rétablir ensuite et non pas faire un unset dessus).
    Comme on a pas tout le script, on suppose que le fichier $C1_Fichier_Resultat est vidé avant car sinon ton problème vient peut-être de là (il y a encore les ancien résultat de tes précèdents tests).

    Sinon, cela peut venir des données elles-même qui faussent l'expression régulière, car pour moi ton script fonctionne avec les modifications que je te suggère plus haut.

    Sinon, une autre façon de faire:
    Ici, on veut savoir les lignes présentes dans le fichier B.txt mais absentes dans A.txt:
    1) On trie le fichier B.txt et on s'arrange pour n'avoir qu'une seule fois les lignes en double:
    2) On double toutes les lignes du fichier A.txt (voici 2 façons de faire):
    ou
    3) On trie la totalité des résultats (sort) puis on affiche que les lignes qui sont unique (uniq -u)

    Ce qui donne:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    (sort -u B.txt;cat A.txt A.txt) | sort | uniq -u
    ou
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    (sort -u B.txt;sed -e 'p' A.txt) | sort | uniq -u

Discussions similaires

  1. Importation et traitement de gros fichiers de données
    Par Emeric974 dans le forum MATLAB
    Réponses: 1
    Dernier message: 04/11/2012, 19h43
  2. Traitement des gros fichiers avec VBA sous MsACCESS
    Par GBAGO dans le forum VBA Access
    Réponses: 1
    Dernier message: 07/11/2008, 10h48
  3. [MySQL] Traitement de gros fichier CSV
    Par oceanbigone dans le forum PHP & Base de données
    Réponses: 11
    Dernier message: 03/07/2007, 11h40
  4. Traitement de gros fichiers
    Par Seth77 dans le forum Langage
    Réponses: 2
    Dernier message: 27/06/2006, 15h53
  5. [C#] [XML] Traitement de gros fichiers XML (90 Mo)
    Par Pulsahr dans le forum Windows Forms
    Réponses: 20
    Dernier message: 01/12/2005, 14h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo