Supprimer redondance fichier

**Isabella83** · 15/02/2012, 10h12

Bonjour à tous,

J'ai un problème avec la manipulation d'un fichier.
Il se présente sous cette forme :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
>pi1
ATGCGTGAAATGCAT
>pi2
TGCCCTGATAGGGACCAGTAGAC
>pi3
ATGCGTGAAATGCATA
>pi4
TGCATGACTA
>pi5
ATGCGTGAAATGCATAT

J'ai mis en gras les séquences ayant la même suite de lettre, et je souhaite garder seulement la plus longue séquence, donc mon nouveau fichier :
>pi5
ATGCGTGAAATGCATAT
>pi2
TGCCCTGATAGGGACCAGTAGAC
>pi4
TGCATGACTA

Je n'ai aucune idée de comment faire ce genre de chose, quelqu'un pourrait m'aider ?
Merci d'avance.

**frp31** · 15/02/2012, 12h58

pourquoi faire ça a la main ?? y'a pas des logiciels de génétique ???

**Isabella83** · 15/02/2012, 14h11

s'il en existe je ne les connais pas ....

**ok.Idriss** · 18/02/2012, 12h53

Bonjour.

s'il en existe je ne les connais pas ....

Oh si il en existe, il faut simplement chercher. Par exemple je me souviens que pour ce genre de traitement (faire un diff entre deux séquences de nucléotides), on avait le logiciel gratuit Anagène au lycée qui était pas mal fait ... après il en existe peut être d'autres qui sont encore mieux, à chercher

.

Bref, sinon oui, tu peux faire ça en shell si tu souhaites (voir, sed, awk, etc) où bien dans d'autres langages plus évolués et peut être plus adaptés.

Cordialement,
Idriss

**Isabella83** · 03/09/2012, 16h03

Bonjour,
Je réouvre ce poste car j'avais reussi à faire ce que je demandai grâce à ce script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
#!/usr/bin/perl
 
use strict;
use warnings;
use Carp qw(confess);
use Getopt::Long;
use Bio::SeqIO;
 
my %seq;
my $title;
my ($fasta_file,$output_file);
GetOptions("fasta=s" => \$fasta_file,"out=s" => \$output_file );
my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
open(my $out,'>',$output_file) or die "$output_file : $!\n\n";
 
 
while ( my $seqs = $in->next_seq()){
	my $title = $seqs->id() ;
	my $sequence = $seqs->seq ;
	$seq{$sequence}=$title;
}
 
 
 
my @seq = keys (%seq); 
my @uniqueseq;
my $find=0;
foreach (@seq){ 
	$find=0;
	my $seq=uc($_); 
	foreach (@uniqueseq){
		if ($seq=~/$_/){
			$_=$seq; 
			$find=1;
		}
		if ($_=~/$seq/){
			$find=1;
		}
	}
	if ($find==0){
		push @uniqueseq,$seq;
	}
}
 
foreach (@uniqueseq){
	print {$out} ">$seq{$_}\n$_\n";
}

Or, j'ai un fichier avec des millions de sequences, et cela fait 7h que le script tourne ... je pense que cela vient du fait que je parcours à chaque iteration la liste "@uniqueseq" .... quelqu'un aurait une idée pour faire autrement ?
Merci d'avance pour votre aide !

**frp31** · 03/09/2012, 16h59

Envoyé par Isabella83

Bonjour,
Je réouvre ce poste car j'avais reussi à faire ce que je demandai grâce à ce script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
#!/usr/bin/perl
 
use strict;
use warnings;
use Carp qw(confess);
use Getopt::Long;
use Bio::SeqIO;
 
my %seq;
my $title;
my ($fasta_file,$output_file);
GetOptions("fasta=s" => \$fasta_file,"out=s" => \$output_file );
my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
open(my $out,'>',$output_file) or die "$output_file : $!\n\n";
 
 
while ( my $seqs = $in->next_seq()){
	my $title = $seqs->id() ;
	my $sequence = $seqs->seq ;
	$seq{$sequence}=$title;
}
 
 
 
my @seq = keys (%seq); 
my @uniqueseq;
my $find=0;
foreach (@seq){ 
	$find=0;
	my $seq=uc($_); 
	foreach (@uniqueseq){
		if ($seq=~/$_/){
			$_=$seq; 
			$find=1;
		}
		if ($_=~/$seq/){
			$find=1;
		}
	}
	if ($find==0){
		push @uniqueseq,$seq;
	}
}
 
foreach (@uniqueseq){
	print {$out} ">$seq{$_}\n$_\n";
}

Or, j'ai un fichier avec des millions de sequences, et cela fait 7h que le script tourne ... je pense que cela vient du fait que je parcours à chaque iteration la liste "@uniqueseq" .... quelqu'un aurait une idée pour faire autrement ?
Merci d'avance pour votre aide !

je connais pratiquement pas perl mais à priori la structure semble ok, je pense donc que c'est le fait effectivement de tout rebalayer qui pose probleme en perfs.

**Isabella83** · 03/09/2012, 17h02

ok et y a t'il un moyen plus rapide de faire la même chose à ton avis ?

Supprimer redondance fichier

Linux

Discussions similaires

Partager

Partager