Extraction de colonnes à partir d'un fichier text

**karimDevelopper** · 12/06/2009, 13h08

Salut,
voila le pb: j'ai un fichier (n ligneX m colonne)
je voudrai récupérer chaque colonne , faire un calcul dessu, l'enregistrer et passer à la suivante

a la fin, afficher toutes les colonnes,

merci d'avance si vous avez des idées

**Jasmine80** · 12/06/2009, 13h17

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
open my $file, '<', 'chemin' or die $!;
 
# array de array $tab[col][val]
my @tab;
 
while (my $line = <$file>){
 
	if ( $line =~ m//){
 
		# récupération des valeurs	
                $tab[$.] = \($1, $2, $3, $4 ...);
	}
 
}	
 
close $file;
 
# calculs sur @tab (indices de 1 à $#tab)

Utilise une expression régulière afin de récupérer tes valeurs
Tu peux utiliser un array de array stockant tes valeurs pour ensuite travailler par colonne

**karimDevelopper** · 12/06/2009, 13h24

si j'ai bien compris le (while) il permet une lecture horizontale (une à une)
mon pb c'est que j'aimerai récupéer toute la colonne (colonne i, ligne (1...m))
puis faire les calculs.

Merci pour ton message

**Jasmine80** · 12/06/2009, 13h25

Envoyé par karimDevelopper

si j'ai bien compris le (while) il permet une lecture horizontale (une à une)
mon pb c'est que j'aimerai récupéer toute la colonne (colonne i, ligne (1...m))
puis faire les calculs.

Merci pour ton message

Tu ne peux pas lire ton fichier autrement ... sauf un fichier excel peut-être

**Jasmine80** · 12/06/2009, 13h28

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
	if ( $line =~ m//){
 
		# récupération des valeurs	
                push @{$tab{'col1'}, $1;
		 push @{$tab{'col2'}}, $2;
		 ...
	}

Utilise une structure ainsi un hash de array qui se déclare my %tab.

**karimDevelopper** · 12/06/2009, 13h28

Je pensais que le perl permettait une lecture verticale des fichiers...

autre chose: est ce qu'on peux lire une colonne dans un tab à 2D sans une boucle
exemple: tab[.,1]: : première colonne

merci

**Jasmine80** · 12/06/2009, 13h32

Où est le rapport avec la bioinformatique? Quel type de fichier est-ce?

**Jasmine80** · 12/06/2009, 13h37

Le code doit ressembler à quelque chose de ce genre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
open my $file, '<', 'chemin' or die $!;
 
# hash de array $tab{col1}[val1a, val1b...]
my %tab;
 
while (my $line = <$file>){
 
	if ( $line =~ m//){
 
		# récupération des valeurs	
                push @{$tab['col1']}, $1;
		push @{$tab['col2']}, $2;
	}
 
}	
 
close $file;
 
 
# calculs 
foreach my $k (sort $key %tab){
 
	# boucle sur les valeurs de la colonne $k
	foreach my $v ( @{$tab{$k}} ){
 
	}
 
	# colonne $k valeur de la première ligne
	$tab{$k}->[1];
 
	# colonne $k valeur de la deuxième ligne
	$tab{$k}->[2];
}

**karimDevelopper** · 12/06/2009, 13h37

je traite des fichiers de génotypage, je voudrai calculer pour chaque snp(colonne) des fréquence (allele),
Je sais le faire sous shell (sed + awk), le pb, ca prend bq de temps
je cherche à lire le fichier verticalement, je pense que les calculs seront plus rapide

plus exactement, je chercher l'equivalent du "cut" en shell sur perl
voila, jasmine. et merci d'avance
si t'as des idées

**Jasmine80** · 12/06/2009, 13h43

C'est mieux de prendre un array de array ... mon idée de prendre un hash est stupide

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
open my $file, '<', 'chemin' or die $!;
 
# array de array $tab[num col][val1a, val1b...]
# $tab[col][line]
my @tab;
 
while (my $line = <$file>){
 
	if ( $line =~ m//){
 
		# récupération des valeurs pour 4 colonnes	
               push @{$tab[0]}, $1;
		push @{$tab[1]}, $2;
		push @{$tab[2]}, $3;
		push @{$tab[3]}, $4;
	}
 
}	
 
close $file;
 
 
# calculs 
foreach my $col (0..3)
 
	# boucle sur les valeurs de la colonne $col
	foreach my $v ( @{$tab[$col]} ){
 
	}
 
	# colonne $col valeur de la première ligne
	$tab[$col]->[0];
 
	# colonne $col valeur de la deuxième ligne
	$tab[$col]->[1];
}

Si ton délimiteur de valeurs est constant, tu peux te passer d'expression régulière et faire un split sur $line pour récupérer tes différentes valeurs.

**djibril** · 12/06/2009, 13h44

Peux tu mettre un exemple de lignes ?
Quelle est la taille de ton fichier ?
Quel est le séparateur de tes colonnes ? une tabulation ?

**karimDevelopper** · 12/06/2009, 13h53

fichier (500 x 10^6)
séparateur \t
exemple:
ID rs1 rs2 rs5 rs3
339 0 0 0 0 0 0 0 0
340 0 0 0 0 0 0 0 0
341 0 0 0 0 0 0 0 0
342 0 0 0 0 0 0 0 0

le souci: j'aimerai traiter verticalement avec le moins de commande possible (lecture verticale, ) pour minimiser le temps

ps.pour jasmine, (merci pour ton deuxième code (array de array, il est bien visible pour moi)

**Jasmine80** · 12/06/2009, 13h58

Tu peux faire ainsi

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
while (my $line = <$file>){
 
	chomp $line;
 
	my ($ID, $rs1, $rs2, $rs5, $rs3) = split /\t/, $line;
 
	push @{$tab[0]}, $ID;
	push @{$tab[1]}, $rs1;
	push @{$tab[2]}, $rs2;
	push @{$tab[3]}, $rs5;
	push @{$tab[4]}, $rs3;
 
}

EDIT : erreur sur le split

**djibril** · 12/06/2009, 14h01

La taille en octet de ton fichier ? C'est histoire de savoir si on peut le charger en mémoire ?

le souci: j'aimerai traiter verticalement avec le moins de commande possible (lecture verticale, ) pour minimiser le temps

Ce n'est pas un argument ça. Le moins de code ne veut pas dire plus rapide, c'est une ineptie de penser ainsi. Le moins de code veut généralement dire code incompréhensible, illisible et non maintenable pour un non initié.

**karimDevelopper** · 12/06/2009, 14h03

Merci jasmine
ta solution me va bien
++

**karimDevelopper** · 12/06/2009, 14h07

quand je dis le moins de code, je comprends, le moins d'opérations,
ex:
prendre une ligne, la découper, séléctionner la première valeur, la deuxième...
faire de meme pour le deuxièmre ligne et faire la somme

je chercher à lire mon fichier verticalement, un genre de "cut" en shell

merci jibril

**djibril** · 12/06/2009, 14h10

Tu n'as toujours pas répondu à ma question par rapport à la taille de ton fichier.
La solution de jasmine est correct car tout est mis en mémoire et ce sera rapide. Mais à la seule condition que tout puisse tenir en mémoire, car si tu as un fichier de 10 Go, tu auras des soucis.

**karimDevelopper** · 12/06/2009, 15h27

le fichier fait 770 mo.
j'ai remarqué qu'il ya certaines commandes qui consomment plus de temps que d'autres.
en shell, le parse total prend des heures,,,,
Est ce vrai ou plutot sur quoi dois je me baser pour avoir un code qui tourne vite...

merci jibril

Extraction de colonnes à partir d'un fichier text

Langage Perl

Discussions similaires

Partager

Partager