problème de match

**chong** · 23/06/2008, 17h16

Bonjour,

En fait je viens d'écrire un petit script qui prend en entrée un fichier fasta, un motif et doit copier les lignes en fonction de la présence ou non de ce motif.
Les sequences que je veux copier sont donc délimitées par
>gi blabla
[A-Z]*
>gi blabla...

en vert la séquence à récupérer à chaque tour de boucle.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
#!c:\perl\perl.exe
 
use strict;
use warnings;
use File::Copy;
 
# Insérer la variable du fichier input
open (InFile,"test.fasta") || die "Le fichier source n'est pas bon\n";
 
# insérer le motif saisi par l'utilisateur
my $Tag = "associated";
 
my $Ligne;
 
# si on veut récupérer le fichier sans le tag
my $Recup = 1;
 
# $TextRecup récupération du match
open (GARDE, ">TextRecup.fasta") || die "erreur";
 
# $TextKeep ce qui ne contient pas le match
open (KEEP, ">TextKeep.fasta") || die "erreur";
 
 
# lecture du fichier ligne par ligne
while ($Ligne=<InFile>)
{
 
	if($Ligne =~ m/(\^\>gi.*($Tag).*)>gi/)
	{
		print GARDE $1;
	}
 
	elsif($Ligne =~m/(\^\>gi.*)>gi/)
	{
		print KEEP $1;
	}
}
 
close(GARDE);
close(KEEP);
 
# choix du fichier à produire
if($Recup == 1)
{
	copy("TextKeep.fasta", "OutFile.fasta");
}
elsif($Recup == 0)
{
	copy("TextRecup.fasta", "OutFile.fasta");
}
else
{
	print("erreur lors de la copie");
}

Le code tourne car il me crée les fichiers TextKeep, TextRecup et OutFile, mais ils sont désespérément vides...

Merci d'avance à qui pourra m'éclairer ...

**Jasmine80** · 23/06/2008, 18h14

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

m/(\^\>gi.*($Tag).*)>gi/

apparemment, tu essaies de récupérer le contenu entre deux gi, ce qui signifie récupérer 2 lignes or $Ligne n'en contient qu'une et par conséquence, tu ne rentres jamais dans tes if.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
	if($Ligne =~ m/^(>gi.*$Tag.*)/)
	{
		print GARDE $1."\n"; # rajoute un enter entre les id récupérés
	}
 
	elsif($Ligne =~ m/^(>gi.*)/)
	{
		print KEEP $1."\n";
	}

mais cela ne récupère pas les séquences.

Pour les garder

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
 
my %seq;
my $id;
 
 
while($Ligne = <InFile>){
 
	if($Ligne =~ m/^(>gi.+)$/){		
                $id = $1; 
                $seq{$id} = 1;
	}
 
	elsif ($Ligne =~ m/^([A-Z]+)$/i){
                my $sequence = $1;
		if( $id eq "" ){
		         print "erreur de récupération à la ligne $.\n";
		}
                else{
                	$seq{$id} = $sequence;
                	$id = "";
                }
	}
}
 
foreach my $id (keys %seq){
 
        if($id =~ /$Tag/){
		print GARDE $id."\n".$seq{$id}."\n";
        }
 
        else{
		print KEEP $id."\n".$seq{$id}."\n";
        } 
}

Tu devrais faire une recherche sur le CPAN, il existe des modules faisant ce que tu veux. Ils seront plus sûrs et plus optimaux.
Par exemples
http://search.cpan.org/~birney/bioperl-1.4/Bio/SeqIO.pm
http://search.cpan.org/~birney/biope...SeqIO/fasta.pm

**Jasmine80** · 24/06/2008, 08h13

Voici par exemple comment utiliser le module Bio::SeqIO

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
use strict;
use warnings;
use Bio::SeqIO;
 
 
my $file = "chemin fichier";
my $in  = Bio::SeqIO->new(-file => $file, '-format' => 'Fasta');
 
my $garde = Bio::SeqIO->new(-file => ">garde.fsa", '-format' => 'Fasta');
my $keep = Bio::SeqIO->new(-file => ">keep.fsa", '-format' => 'Fasta');
 
my $tag = "";
 
while ( my $seq = $in->next_seq()){
    if($seq->primary_id =~ /$tag/){
        $garde->write_seq($seq);
    }
    else{
        $keep->write_seq($seq);
    }
}

Voici un exemple d'objet de séquence

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
$VAR1 = bless( {
                 'primary_id' => 'gi|190010013|emb|AM743169.1|',
                 'primary_seq' => bless( {
                                           'display_id' => 'gi|190010013|emb|AM743169.1|',
                                           'primary_id' => 'gi|190010013|emb|AM743169.1|',
                                           'desc' => 'Stenotrophomonas maltophilia K279a complete genome, strain K279a',
                                           'seq' => 'ATGGATGCTTGGTCCCGTAGTCTCGAGCGCCTCGAAGCGGAGTTCCCGCCGGAAGACGTTCATACCTGGCTGAAGCCACTGCAGGCCGATCTGCGCGTGGACAGCCTGGTGCTGTATGCACCGAATGCCTTCATCGTCGA',
                                           'alphabet' => 'dna'
                                         }, 'Bio::PrimarySeq' )
               }, 'Bio::Seq' );

**chong** · 24/06/2008, 11h49

ok .... Merci beaucoup pour toutes tes explications et le temps que tu as passé pour me répondre! Je vais me pencher sur le bio perl d'un peu plus près et je vais tester ça aujourd'hui!

**chong** · 24/06/2008, 13h18

Bon en fait le bio perl ça a l'air super puissant mais je comprends pas tout... pour le moment il se contente de recopier le fichier de base dans l'un ou l'autre des fichiers de sortie...
Par contre, le script perl que tu as corrigé fonctionne presque.... je récupère seulement la 1ère ligne de la séquence et comme pour chaque espèce le nombre de lignes est variable, ca me fait une erreur toutes les 2 lignes...
Je suis vraiment désolée de poser autant de questions, je viens de commencer à apprendre le perl depuis une semaine et je maîtrise pas vraiment pour le moment malgré la quantité de tutoriaux...

**Jasmine80** · 24/06/2008, 13h22

Pourrais-tu donner quelques exemples de tes lignes >Gi...

C'est parce que j'ai écrit un script fonctionnant pour des séquences écrites sur une seule ligne ... et c'est déjà assez 'dangereux' de les récupérer ainsi sans pour en plus ajouter une séquence sur différentes lignes.

Pourquoi n'essaies-tu pas d'utiliser Bio::SeqIO? C'est 100 fois mieux. Avant de l'utiliser, je faisais de simples lectures de fichiers et j'ai parfois eu des problèmes.
Dans ce script, $seq est un objet possédant des tags. Tu accèdes à la valeur de ses tags par la fonction $seq->tag.
Le programme que j'ai écrit avec ce module crée les fichiers keep et garde que tu veux.

**chong** · 24/06/2008, 13h31

C'est bon j'ai compris le souci pour Bio::SeqIO :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
while ( my $seq = $in->next_seq()){
    if($seq->desc=~ /$tag/){
        $garde->write_seq($seq);
    }
    else{
        $keep->write_seq($seq);
    }

voilà la doc finalement contient quand même des infos !! (faut vraiment que je lise attentivement tout..)

Merci un million de fois Jasmine !!
Je pense que je vais vraiment me renseigner sur le bioperl.... c'est carrément plus court que le perl pour les applications dont j'ai besoin...

Par contre une autre question : peut-on appliquer du tk sur bio perl? je compte créer une petite interface graphique pour que l'utilisateur puisse choisir son fichier et son tag...

**Jasmine80** · 24/06/2008, 13h38

Oui, cela devrait être compatible. Bioperl est en fait un ensemble de modules Perl. Il te suffit seulement de bien déclarer les modules que tu utilises.

**chong** · 24/06/2008, 14h06

oki merci pour tout !!

Ben je vais y retourner ... En tous cas ça fait vraiment plaisir de trouver de l'aide sur ce forum avec des personnes aussi sympa !!

Je m'excuse d'avance mais tu vas certainement me revoir dans pas longtemps !

**Jasmine80** · 24/06/2008, 14h17

Au plaisir de te revoir. J'aime beaucoup de forum et il m'a également souvent aidé.

problème de match

Langage Perl

Discussions similaires

Partager

Partager