IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

PERL: Problème avec Tri sans doublon


Sujet :

Langage Perl

  1. #1
    Membre du Club
    Homme Profil pro
    Inscrit en
    Juillet 2008
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Juillet 2008
    Messages : 70
    Points : 49
    Points
    49
    Par défaut PERL: Problème avec Tri sans doublon
    Bonjour,

    Tout d'abord j'utilise:
    Perl 5.10, Toad 4.1 & MySQL 5.1

    Ce que je souhaite réaliser:
    1. Concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier
    2. De supprimer toutes les lignes vides
    3. Mettre tout ça dans un tableau et supprimer la colonne 2,8,9,10 & 11
    4. Trier par la première colonne
    5. Supprimer toutes les lignes en doublons
    6. Remplacer tous les caractères " par rien
    7. D'ajouter en dernière colonne les 3 premiers caractères de la colonne 3 (TEL, PRP etc...)
    8. Sur cette dernière colonne, remplacer tous les INA, INJ & INR par INT
    9. Insérer en début de ligne insert into zz_billing values("
    10. D'insérer en fin de ligne ");
    11. De remplacer le délimiteur ; par ","
    12. Renommer le fichier de sorti en .sql

    Exemple de fichier d'entré:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    245362;77;77289;INR69907;Feutre;799;20091102232406;;VEL;799;66;24;
    243640;77;66017;INT81553;"Cahier";699;20091102232318;;VEL;699;66;24;
    236958;77;08;DRT03286;Lit;299;20091102231945;;VEL;299;66;15;
    319771;77;79060;INA38898;Stylo;399;20091102231902;;VEL;399;66;3;
    319771;77;79060;BTQ38898;Stylo;399;20091102231902;;VEL;399;66;24;
    319250;77;13110;INJ40768;Matelas;599;20091102231736;;VEL;599;66;24;
    320343;77;21758;PRP31628;Souris;299;20091102231459;;VEL;299;66;24;
    331379;77;27209;INT59377;Trousse;299;20091102231319;;VEL;299;66;15;
    314147;77;89301;BTQ12922;Ciseau;0;20091102231248;;VEL;0;66;24;
    334467;77;26234;TEL38873;Mouchoir;499;20091102231131;;VEL;499;66;24;
    241749;77;37732;TEL90191;Effaceur;699;20091102231104;;VEL;699;66;24;
    Le résultat souhaité:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    insert into zz_billing values("236958","8","DRT03286","Lit","299","20091102231945","15","DRT");
    insert into zz_billing values("241749","37732","TEL90191","Effaceur","699","20091102231104","24","TEL");
    insert into zz_billing values("243640","66017","INT81553","Cahier","699","20091102232318","24","INT");
    insert into zz_billing values("245362","77289","INR69907","Feutre","799","20091102232406","24","INT");
    insert into zz_billing values("314147","89301","BTQ12922","Ciseau","0","20091102231248","24","BTQ");
    insert into zz_billing values("319250","13110","INJ40768","Matelas","599","20091102231736","24","INT");
    insert into zz_billing values("319771","79060","BTQ38898","Stylo","399","20091102231902","24","BTQ");
    insert into zz_billing values("319771","79060","INA38898","Stylo","399","20091102231902","3","INT");
    insert into zz_billing values("320343","21758","PRP31628","Souris","299","20091102231459","24","PRP");
    insert into zz_billing values("331379","27209","INT59377","Trousse","299","20091102231319","15","INT");
    insert into zz_billing values("334467","26234","TEL38873","Mouchoir","499","20091102231131","24","TEL");
    Je débute en perl et pour le moment mon script est le suivant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    #!/usr/bin/perl -w
    use strict;
    use warnings;
     
    # ************************************************************
    # Global Variables
    my $LOCAL_DIR = "/cygdrive/d/_.billing/_.compiler/backup/test/";
    my $DEST_DIR = "/cygdrive/d/_.billing/_.compiler/backup/";
    my $SEARCH_FILE = "*_billing_*";
    my $OUTPUT_FILE = $DEST_DIR . sprintf("RESULT_FILE.SQL");
    my $START_SEP = 'insert into zz_billing values("';
    my $SEP = '","';
    my $END_SEP = '");';
     
    # ************************************************************
    # Script Perl
    print "Starting...\n";
    print "\n";
    # ************************************************************
     
    open (OUT,">$OUTPUT_FILE") or die "Message : $!\n";
    my @RESULT_FILE = <$LOCAL_DIR$SEARCH_FILE>;
    foreach my $LINE(@RESULT_FILE)
    {
      open IN,"$LINE" or warn "Message : $!\n";
      while(<IN>)
      {
      	s/\"//g; #"
      	next if m/^$/;
      	my @SPLIT_TAB = split(/;+/);
      	push(@SPLIT_TAB,substr($SPLIT_TAB[3],0,3));
      	chomp(@SPLIT_TAB);
      	$SPLIT_TAB[11] =~ s/INA|INJ|INS/INR/;
      	print OUT "$START_SEP$SPLIT_TAB[0]$SEP$SPLIT_TAB[2]$SEP$SPLIT_TAB[3]$SEP$SPLIT_TAB[4]$SEP$SPLIT_TAB[5]$SEP$SPLIT_TAB[6]$SEP$SPLIT_TAB[10]$SEP$SPLIT_TAB[11]$END_SEP\n";
      	#print OUT $_;
      }
    }
     
    # ************************************************************
    # Ending...
    print "\n";
    print "Ending...\n";
    END
    # End.
    # ************************************************************
    J'arrive donc à un résultat plutôt satisfaisant, il me manque en revanche l'étape 4 & 5.
    4. Trier par la première colonne
    5. Supprimer toutes les lignes en doublons

    Je ne peux pas le faire pendant le foreach car c'est à mon sens un traitement ligne par ligne donc il n'a pas encore toutes les données pour faire un tri.
    Il faut donc à mon avis le faire dans un second temps dans un autre fichier de sorti.

    C'est là que je bloque car je n'arrive tout bonnement pas à récupérer ce que j'ai fais pour effectuer le sort dans un second tableau.

    Puis pour le tri sans doublons j'ai croisé sur le net des choses avec table de hashage mais je n'y suis pas arrivé.

    Merci d'avance pour votre aide,
    ++

  2. #2
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Par ligne en doublon, tu entends : clé identique (colonne 1) ou bien ligne identique (toutes les colonnes identiques) ?
    Selon ta réponse, je pourrais te proposer deux méthodes.

    Pour l'écriture "triée", il suffit dans ton premier while, au lieu d'écrire dans un fichier OUT, de sauver dans une table ou un hash (selon ta réponse à ma question), et de refaire un while ensuite en triant, comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    open my $OUT, ">", $OUTPUT_FILE") or die "Can't open $OUTPUT_FILE for writting : $!\n";
    foreach my $line (sort @out) {
      print $OUT $line;
    }
    ou si un hash est utilisé :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    open my $OUT, ">", $OUTPUT_FILE") or die "Can't open $OUTPUT_FILE for writting : $!\n";
    foreach my $key (sort keys %out) {
      print $OUT $out{$key};
    }

  3. #3
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Je ne sais pas si c'est une bonne façon de faire mais je vérifierais que les lignes sont uniques via une clé de hash et je ne garderais les valeurs dans un array de array qu'à cette condition. Il suffit ensuite de faire un sort sur la première colonne.

    Quelque chose comme ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    my @tab;
    my %tab_doublons;
    my $i = 0;
     
    foreach my $line (@file){
     
    	# hash : clé : ligne    
    	# on ne récupère que les lignes n'existant pas encore
    	if (! exists $tab_doublons{$line}){
     
    		$tab_doublons{$line} = 1;
     
    		# array : valeurs = split sur la ligne
    		@{$tab[$i]} = split (/;+/, $line);
    	}
     
    	$i++;
    }
     
    foreach my $ref_array (sort {$a->[0] <=> $b->[0]} @tab){
    	print ${$ref_array}[0]."\n";
    }

  4. #4
    Membre du Club
    Homme Profil pro
    Inscrit en
    Juillet 2008
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Juillet 2008
    Messages : 70
    Points : 49
    Points
    49
    Par défaut
    Bonjour,

    Merci infiniment pour vos réponses je vais les étudier de ce pas.

    Pour répondre à la première question, il s'agit de supprimer les doublons des lignes identiques (toutes les colonnes identiques).

  5. #5
    Membre actif

    Profil pro
    Inscrit en
    Août 2009
    Messages
    156
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France

    Informations forums :
    Inscription : Août 2009
    Messages : 156
    Points : 211
    Points
    211
    Par défaut
    Pour repartir de ton alogrithme de départ:
    Ce que je souhaite réaliser:
    1. Concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier
    2. De supprimer toutes les lignes vides
    3. Mettre tout ça dans un tableau et supprimer la colonne 2,8,9,10 & 11
    4. Trier par la première colonne
    5. Supprimer toutes les lignes en doublons
    6. Remplacer tous les caractères " par rien
    7. D'ajouter en dernière colonne les 3 premiers caractères de la colonne 3 (TEL, PRP etc...)
    8. Sur cette dernière colonne, remplacer tous les INA, INJ & INR par INT
    9. Insérer en début de ligne insert into zz_billing values("
    10. D'insérer en fin de ligne ");
    11. De remplacer le délimiteur ; par ","
    12. Renommer le fichier de sorti en .sql
    1. Concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier en
    1.1 supprimant les colonne 2,8,9,10 & 11
    1.2. supprimant toutes les lignes vides
    2. Tout mettre dans un hash pour supprimer les doublons (sur toute la ligne restante donc) comme le suggère Jamine80
    3. Boucler sur ton hash pour faire tous les traitements restants à l'identique de ce que tu fais. La fin reste donc pareille.

Discussions similaires

  1. [XL-2003] Liste déroulante avec filtre et tri sans doublon
    Par mandrake57 dans le forum Macros et VBA Excel
    Réponses: 29
    Dernier message: 18/03/2011, 08h07
  2. Problème avec Try ... Except
    Par Kcintim dans le forum Langage
    Réponses: 1
    Dernier message: 25/03/2006, 15h31
  3. [Tableaux] Fusion & Tri Sans Doublons
    Par pouillou dans le forum Langage
    Réponses: 3
    Dernier message: 20/03/2006, 11h03
  4. [PERL] Problème avec map
    Par LE NEINDRE dans le forum Langage
    Réponses: 9
    Dernier message: 05/10/2005, 09h48
  5. [Perl]problème avec fork
    Par LE NEINDRE dans le forum Programmation et administration système
    Réponses: 1
    Dernier message: 23/09/2005, 15h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo