IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

parse fichier embl pour récup des infos


Sujet :

Bioinformatique Perl

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut parse fichier embl pour récup des infos
    Hello,

    J'aimerais pour chaque gène récuperer le accession number (Acc )et la séquence traduite (translation)
    Mon problème est que j'obtiens des lignes vides!!!(correspondant aux lignes non selectionnés

    >Acc:20773
    MREIVLTQIGQCGNQIGAKFWEVISDEHAINSAGTYHGDSHLQLE
    RINVYYNEASGGR
    >Acc:H2Q1I7
    MSRVHGMHPKETTRQLSLAVKDGLIVETLTVGCKGSKAGIEQEGY WLPGDEIDWETENHDWYCFECHLPGEVLICDLCFRVYHSKCLSDEFRLRDSSSPWQCPVCRSIKKKNTNKQEMGTYLRFIVSRMKERAIDLNKKGK

    [CODE]
    ...
    FT gene complement(98074..100357)
    FT /gene=ENSPTRG00000002168
    FT /locus_tag="TUBB8"
    FT /note="tubulin, beta 8 class VIII [Source:HGNC
    FT Symbol;Acc:20773]"
    FT mRNA join(complement(100232..100357),complement(99852..99960),
    FT complement(99663..99773),complement(98074..99162))
    FT /gene="ENSPTRG00000002168"
    FT /note="transcript_id=ENSPTRT00000003967"
    FT CDS join(complement(100232..100288),complement(99852..99960),
    FT complement(99663..99773),complement(98105..99162))
    FT /gene="ENSPTRG00000002168"
    FT /translation="MREIVLTQIGQCGNQIGAKFWEVISDEHAINSAGTYHGDSHLQLE
    FT RINVYYNEASGGR"
    FT gene 189072..315637
    FT /gene=ENSPTRG00000002229
    FT /locus_tag="ZMYND11"
    FT /note="Uncharacterized protein
    FT [Source:UniProtKB/TrEMBL;Acc:H2Q1I7]"
    FT mRNA join(189072..189393,235063..235197,271057..271216,
    FT 282201..282362,297879..297956,298626..298718,
    FT 300469..300556,301102..301157,301939..302016,
    FT 303068..303186,307802..308009,308433..308501,
    FT 309351..309623,309917..310102,313361..315637)
    FT /gene="ENSPTRG00000002229"
    FT /note="transcript_id=ENSPTRT00000004081"
    FT CDS join(271061..271216,282201..282362,297879..297956,
    FT 298626..298718,300469..300556,301102..301157,
    FT 301939..302016,303068..303186,307802..308009,
    FT 308433..308501,309351..309623,309917..310102,
    FT 313361..313483)
    FT /gene="ENSPTRG00000002229"
    FT /protein_id="ENSPTRP00000003768"
    FT /note="transcript_id=ENSPTRT00000004081"
    FT /db_xref="RefSeq_mRNA_predicted:XM_001135863.3"
    FT /db_xref="Ens_Hs_transcript:ENST00000309776"
    FT /db_xref="Uniprot/SPTREMBL:H2Q1I7_PANTR"
    FT /db_xref="Uniprot/SPTREMBL:K7CUR4_PANTR"
    FT /db_xref="EMBL:AACZ03076941"
    FT /db_xref="EMBL:GABD01004750"
    FT /db_xref="EMBL:GABF01002657"
    FT /db_xref="Ens_Hs_translation:ENSP00000309992"
    FT /db_xref="GO:GO:0005515"
    FT /db_xref="GO:GO:0005515"
    FT /db_xref="Uniprot_gn_trans_name:ZMYND11-201"
    FT /db_xref="goslim_goa:GO:0003674"
    FT /db_xref="goslim_goa:GO:0005622"
    FT /db_xref="protein_id:JAA10128.1"
    FT /db_xref="UniParc:UPI000002E25A"
    FT /translation="MSRVHGMHPKETTRQLSLAVKDGLIVETLTVGCKGSKAGIEQEGY
    FT WLPGDEIDWETENHDWYCFECHLPGEVLICDLCFRVYHSKCLSDEFRLRDSSSPWQCPV
    FT CRSIKKKNTNKQEMGTYLRFIVSRMKERAIDLNKKGK"

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
     
    my $seq = 0;
    my $sequence;
     
    open FILE, "test" or die $!;
     
    while (my $line =<FILE>) {
            if ($line =~ /Acc:(.*)\]\"/){
    		print ">accession number :$1 \n";
    	}
            elsif ($line =~ /^FT                   \/translation=\"(.*)/) {
    		$seq = 1;
    		my $all=$1;
    		print "$all \n";
           }
           elsif ( ($seq) && ($line =~ /FT                   ([A-Z]*)/)){                  
                     print "$1 \n";
          }
    }   
    close FILE;

  2. #2
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 256
    Points
    12 256
    Billets dans le blog
    1
    Par défaut
    Je ne comprends pas bien; le premier bloc de données représente les données obtenues, et le second bloc les données en entrée?

    Et explique le problème, je ne vois pas ce que tu veux dire.

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    Désolé,

    A partir de ce fichier embl
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
     
    FT   gene            complement(98074..100357)
    FT                   /gene=ENSPTRG00000002168
    FT                   /locus_tag="TUBB8"
    FT                   /note="tubulin, beta 8 class VIII [Source:HGNC
    FT                   Symbol;Acc:20773]"
    FT   mRNA            join(complement(100232..100357),complement(99852..99960),
    FT                   complement(99663..99773),complement(98074..99162))
    FT                   /gene="ENSPTRG00000002168"
    FT                   /note="transcript_id=ENSPTRT00000003967"
    FT   CDS             join(complement(100232..100288),complement(99852..99960),
    FT                   complement(99663..99773),complement(98105..99162))
    FT                   /gene="ENSPTRG00000002168"
    FT                   /protein_id="ENSPTRP00000050906"
    FT                   /note="transcript_id=ENSPTRT00000003967"
    FT                   /db_xref="RefSeq_mRNA_predicted:XM_001135050.3"
    FT                   /translation="MREIVLTQIGQCGNQIGAKFWEVISDEHAINSAGTYHGDSHLQLE
    FT                   RINVYYNEASGGRYVPRAVLVDLEPGTMDSVRSGPFGQVFRPDNFIFGQCGAGNNWAKG
    FT                   HYTEGAELMESVMDVVRKEAESCDCLQGFQLTHSLGGGTGSGMGTLLLSKIREEYPDRI
    FT                   INTFSILPSPKVSDTVVEPYNATLSVHQLIENADETFCIDNEALYDICSKTLKLPTPTY
    FT                   GDLNHLVCATMSGVTTCLRFPGQLNADLRKLAVNMVPFPRLHFFMPGFAPLTSRGSQQY
    FT                   RALTVAELTQQMFDAKNMMAACDPRHGRYLTAAAIFRGRMPMREVDEQMFNIQDKNSSY
    FT                   FADWLPNNVKTAVCDIPPRGLKMSATFIGNNTAIQELFKRVSEQFTAMFRRKAFLHWYT
    FT                   GEGMDEMEFTEAESNMNDLVSEYQQYQDATAEEEEDEECDEEEVA"
    FT   gene            189072..315637
    FT                   /gene=ENSPTRG00000002229
    FT                   /locus_tag="ZMYND11"
    FT                   /note="Uncharacterized protein
    FT                   [Source:UniProtKB/TrEMBL;Acc:H2Q1I7]"
    FT   mRNA            join(189072..189393,235063..235197,271057..271216,
    FT                   282201..282362,297879..297956,298626..298718,
    FT                   300469..300556,301102..301157,301939..302016,
    FT                   303068..303186,307802..308009,308433..308501,
    FT                   309351..309623,309917..310102,313361..315637)
    FT                   /gene="ENSPTRG00000002229"
    FT                   /note="transcript_id=ENSPTRT00000004081"
    FT   CDS             join(271061..271216,282201..282362,297879..297956,
    FT                   298626..298718,300469..300556,301102..301157,
    FT                   301939..302016,303068..303186,307802..308009,
    FT                   308433..308501,309351..309623,309917..310102,
    FT                   313361..313483)
    FT                   /gene="ENSPTRG00000002229"
    FT                   /protein_id="ENSPTRP00000003768"
    FT                   /note="transcript_id=ENSPTRT00000004081"
    FT                   /db_xref="RefSeq_mRNA_predicted:XM_001135863.3"
    FT                   /db_xref="protein_id:JAA28350.1"
    FT                   /db_xref="protein_id:JAA40243.1"
    FT                   /db_xref="UniParc:UPI000002E25A"
    FT                   /translation="MSRVHGMHPKETTRQLSLAVKDGLIVETLTVGCKGSKAGIEQEGY
    FT                   WLPGDEIDWETENHDWYCFECHLPGEVLICDLCFRVYHSKCLSDEFRLRDSSSPWQCPV
    FT                   CRSIKKKNTNKQEMGTYLRFIVSRMKERAIDLNKKGKDNKHPMYRRLVHSAVDVPTIQE
    FT                   KVNEGKYRSYEEFKADAQLLLHNTVIFYGADSEQADIARMLYKDTCHELDELQLCKNCF
    FT                   YLSNARPDNWFCYPCIPNHELVWAKMKGFGFWPAKVMQKEDNQVDVRFFGHHHQRAWIP
    FT                   SENIQDITVNIHRLHVKRSMGWKKACDELELHQRFLREGRFWKSKNEDRGEEEAESSIS
    FT                   STSNEQLKVTQEPRAKKGRRNQSVEPKKEEPEPETEAVSSSQEIPTMPQPIEKVSVSTQ
    FT                   TKKLSASSPRMLHRSTQTTNDGVCQSMCHDKYTKIFNDFKDRMKSDHKRETERVVREAL
    FT                   EKLRSEMEEEKRQAVNKAVANMQGEMDRKCKQVKEKCKEEFVEEIKKLATQHKQLISQT
    FT                   KKKQWCYNCEEEAMYHCCWNTSYCSIKCQQEHWHAEHKRTCRRKR"



    J'aimerais obtenir ceci
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    >Acc:20773
    MREIVLTQIGQCGNQIGAKFWEVISDEHAINSAGTYHGDSHLQLE
    RINVYYNEASGGR
    >Acc:H2Q1I7
    MSRVHGMHPKETTRQLSLAVKDGLIVETLTVGCKGSKAGIEQEGY WLPGDEIDWETENHDWYCFECHLPGEVLICDLCFRVYHSKCLSDEFRLRDSSSPWQCPVCRSIKKKNTNKQEMGTYLRFIVSRMKERAIDLNKKGK


    Mais voilà d'après mon script j'obtiens ceci
    >Acc:20773
    MREIVLTQIGQCGNQIGAKFWEVISDEHAINSAGTYHGDSHLQLE
    RINVYYNEASGGR
    ####suivi de 3 lignes vides
    >Acc:H2Q1I7
    ####suivi de 17 lignes blanches
    MSRVHGMHPKETTRQLSLAVKDGLIVETLTVGCKGSKAGIEQEGY WLPGDEIDWETENHDWYCFECHLPGEVLICDLCFRVYHSKCLSDEFRLRDSSSPWQCPVCRSIKKKNTNKQEMGTYLRFIVSRMKERAIDLNKKGK


    Ce sont ces lignes vides qui me dérangent et que je n'arrive pas à les supprimer avec mon script

  4. #4
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 256
    Points
    12 256
    Billets dans le blog
    1
    Par défaut
    Dans tes deux expressions régulières, remplace ta longue liste d'espaces par '\s+', je pense que ça devrait marcher. Quelque chose comme ceci:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    while (my $line =<FILE>) {
            if ($line =~ /Acc:(.*)\]\"/){
    		print ">accession number :$1 \n";
    	}
            elsif ($line =~ /^FT\s+\/translation=\"(.*)/) {
    		$seq = 1;
    		my $all=$1;
    		print "$all \n";
           }
           elsif ( ($seq) && ($line =~ /FT\s+([A-Z]*)/)){                  
                     print "$1 \n";
          }
    }
    Si ça ne marche toujours pas, poste le fichier en entrée en pièce jointe pour que l'on puisse regarder son contenu exact et éventuellement tester avec un fichier identique au tien (un copier-coller peut modifier certaines choses).

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Bonsoir,

    Pourquoi ne pas utiliser un module BioPerl qui te permettra de convertir un fichier EMBL en fichier fasta sans difficultés ?

  6. #6
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    Merci Lolo78,
    J'ai remplacé ta longue liste d'espaces par '\s+' et j'ai mis le $ de fin de ligne et ça marche!!!
    Merci Djibril je n'y avais pas pensé!

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
     
    while (my $line =<FILE>) {
            if ($line =~ /Acc:(.*)\]\"$/){
    		print ">accession number :$1 \n";
    	}
            elsif ($line =~ /^FT\s+\/translation=\"(.*)$/) {
    		$seq = 1;
    		my $all=$1;
    		print "$all \n";
           }
           elsif ( ($seq) && ($line =~ /FT\s+([A-Z]*)$/)){                  
                     print "$1 \n";
          }
    }

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Batch] Comment exploiter un fichier texte pour extraire des infos ?
    Par hackoofr dans le forum Scripts/Batch
    Réponses: 1
    Dernier message: 09/07/2015, 08h36
  2. Réponses: 3
    Dernier message: 15/05/2015, 19h49
  3. Réponses: 2
    Dernier message: 26/01/2007, 14h58
  4. [débutant] filtrer un fichier pour afficher des infos
    Par Valichou dans le forum API standards et tierces
    Réponses: 7
    Dernier message: 21/04/2004, 11h44
  5. Script pour envoyer des info a mysql
    Par rhum1 dans le forum Linux
    Réponses: 6
    Dernier message: 15/04/2003, 16h19

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo