IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

récupérer une sous-séquence


Sujet :

Langage Perl

  1. #1
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut récupérer une sous-séquence
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    my $sequence = 'ATC.GATGAT....ACAGTAGATA..CAGATATG..TTCGCG...ATATAGGCAAG...ATGGATA.CCAGTA.T';
    Problème :

    A partir du Xième caractère de la séquence X = 30 (2ème A de CAGATATG)
    Récupérer N nucléotides de part et d'autre N = 5

    Résultat attendu TA..CAGATATG..T


    Quelle est la manière la plus simple de procéder?


    Merci pour votre aide,

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Avec un substr, non ?

  3. #3
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par djibril Voir le message
    Avec un substr, non ?

    Je ne sais pas j'ai commencé quelque chose de compliqué :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
     
    my @sequence_list = split (//, $sequence);
     
    my $x = 30;
    my $n = 5;
     
    # $x - 1 pour avoir l'indice de l'array
    $x --;
     
     
    my $subseq .= $sequence_list[$x];
     
     
    my $ok = 0;
     
     
    # récupération de n nucléotides à droite à partir de $xième
    while ($ok < $n){
     
    	# on progresse 1 à 1
    	$x ++;
     
    	if ($sequence_list[$x] =~ m/[ATCG]/i ){		
     
    		$ok ++;
    		$subseq .= $sequence_list[$x];
    	}
     
    }

  4. #4
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Peut-on dans une expression régulière donner la position? en utilisant $* ?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    =~ [\w\.*\w\.*\w\.*\w\.*\w\.*[\w\.]\.\w\.*\w\.*\w\.*\w\.*\w]
    Récupérer 5 lettres à gauche et 5 à droite en disant que la lettre rouge (ou le point) est à la 30ième position

    ... le problème, c'est que le nombre de lettres à récupérer est une variable $n

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    my $sequence = 'ATC.GATGAT....ACAGTAGATA..CAGATATG..TTCGCG...ATATAGGCAAG...ATGGATA.CCAGTA.T';
    my $motif = 'CAGATATG';
    my $N = 5;
    if ( my ($avant, $apres) = $sequence =~ m/(.{$N})$motif(.{$N})/ ) {
      print "Avant : $avant\n";
      print "Apres : $apres\n";
    }
    Avant : ATA..
    Apres : ..TTC

  6. #6
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Je ne sais pas si j'ai bien saisi car je ne comprends pas ton résultat obtenu par rapport à ton énoncé. Si tu veux juste 5 caractères avant le X=30 et 5 après, pourquoi ne pas utiliser un subtr comme ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    my $X = 30;
    print substr $sequence,$X-5, 2*$N;
    .CAGATATG.

  7. #7
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Je suis d'accord avec djibril, substr est la meilleur solution.
    L'équivalent regexp pourrait être :
    mais il sera forcément moins performant.

  8. #8
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par djibril Voir le message
    Je ne sais pas si j'ai bien saisi car je ne comprends pas ton résultat obtenu par rapport à ton énoncé. Si tu veux juste 5 caractères avant le X=30 et 5 après
    Je ne veux pas 5 caractères, je veux 5 lettres (A, T, C ou G) quelques soit le nombre de points intermédiaires.

  9. #9
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Voici un programme faisant ce que je veux, mais il devrait y avoir moyen de faire un meilleur code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
     
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
     
    my $sequence = 'ATC.GATGAT....ACAGTAGATA..CAGATATG..TTCGCG...ATATAGGCAAG...ATGGATA.CCAGTA.T';
     
    =h
    A partier du Xième caractère (2ème A de CAGATATG)		X = 30
    Récupérer N nucléotides de part et d'autre			N = 5
     
    Résultat TA..CAGATATG..T
     
     
    =cut
     
     
    my @sequence_list = split (//, $sequence);
     
    my $x = 30;
    # $x - 1 pour avoir l'indice de l'array
    $x --;
     
    my $n = 5;
    my $ok = 0;
     
    my $x2 = $x;
     
     
    my $subseq .= $sequence_list[$x];
     
     
     
    # récupération de n nucléotides à droite à partir de $xième
    while ($ok < $n){
     
    	# on progresse 1 à 1
    	$x ++;
     
    	if ($sequence_list[$x] =~ m/[ATCG]/i ){		
     
    		$ok ++;
    		$subseq .= $sequence_list[$x];
    	}
     
    }
     
    $ok = 0;
     
     
    # récupération de n nucléotides à gauche à partir de $xième
    while ($ok < $n){
     
    	# on progresse 1 à 1
    	$x2 --;
     
    	if ($sequence_list[$x2] =~ m/[ATCG]/i ){		
     
    		$ok ++;
    		$subseq = $sequence_list[$x2].$subseq ;
     
    		print "$x2 => $sequence_list[$x2]\n";
    	}
     
    }
     
     
     
    print "$subseq\n";

  10. #10
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Je ne comprends pas Jasmine. Tu dis cela
    Citation Envoyé par Jasmine80 Voir le message
    Je ne veux pas 5 caractères, je veux 5 lettres (A, T, C ou G) quelques soit le nombre de points intermédiaires.
    et tu attends ce résultat :
    Citation Envoyé par Jasmine80 Voir le message
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    ...
    =h
    A partier du Xième caractère (2ème A de CAGATATG)		X = 30
    Récupérer N nucléotides de part et d'autre			N = 5
     
    Résultat TA..CAGATATG..T
    Pourrais-tu préciser, car j'ai une autre solution, mais il faudrait savoir si :
    - les X caractères représentent X lettres ou X caractères quelconques (incluant le .)
    - les N nucléotides peuvent-elle contenir des . comme dans ton exemple (donc ce serait des caractères et non des lettres) ?

  11. #11
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Merci de t'intéresser à mon problème

    Citation Envoyé par Philou67430 Voir le message
    Pourrais-tu préciser, car j'ai une autre solution, mais il faudrait savoir si :
    - les X caractères représentent X lettres ou X caractères quelconques (incluant le .)
    X lettres sans points

    Citation Envoyé par Philou67430 Voir le message
    - les N nucléotides peuvent-elle contenir des . comme dans ton exemple (donc ce serait des caractères et non des lettres) ?
    En effet, je ne suis pas claire car il manque une étape à mon résulat, il faut enlever les points
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    $Resultat = 'TA..CAGATATG..T';
    $Resultat =~ s/\.//g;
    On obtient donc :
    TACAGATATGT
    54321012345


    Est-ce plus clair ainsi?

    Le programme que j'ai posté fait ce travail là mais je le trouve lourd.


    Merci

  12. #12
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Il reste une chose pas claire : 30 caractères ATCG à partir du début ne correspond pas au 2e A de CAGATATG, mais au 30e caractère incluant les points (d'où ma question).

    Si je considère ce que tu me dis, le résultat que tu attends n'est donc pas celui que tu annonces, et cet uniligne devrait faire ce que tu attends :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $ perl -e '($X, $N) = (30, 5);my $sequence = "ATC.GATGAT....ACAGTAGATA..CAGATATG..TTCGCG...ATATAGGCAAG...ATGGATA.CCAGTA.T";$s = join "", @{[$sequence =~ /([ATCG])/g]}[($X-$N)..($X+$N-1)];print "s=$s\n" '

  13. #13
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Merci pour ton aide

    Citation Envoyé par Philou67430 Voir le message
    Il reste une chose pas claire : 30 caractères ATCG à partir du début ne correspond pas au 2e A de CAGATATG, mais au 30e caractère incluant les points (d'où ma question).
    C'est au 30ième caractères (incluant le points) mais on récupère de part et d'autre 5 nucléotides (lettres uniquement).

    Je ne peux pas faire un programme uniligne car j'ai plusieurs séquences dans un fichier à traiter. J'ai simplifié le problème en donnant un exemple plus simple.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    # fichier d'entrées
    my $infile = 'P:/Theorie/Driss/PAF_probes/fasta_poly/consensus80_sub.fsa';
     
    my $in  = Bio::SeqIO->new(-file => $infile , '-format' => 'fasta');
     
     
    while ( my $seq = $in->next_seq() ) {
     
    # avec $seq->seq étant la séquence

  14. #14
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    L'uniligne n'était là qu'à titre d'exemple... il faut bien sur l'adapter.
    Et ta dernière réponse va à l'encontre de ce que tu as dis plus haut :
    Citation Envoyé par Jasmine80
    Citation Envoyé par Philou67430
    Pourrais-tu préciser, car j'ai une autre solution, mais il faudrait savoir si :
    - les X caractères représentent X lettres ou X caractères quelconques (incluant le .)
    X lettres sans points
    Donc mon exemple uniligne n'est pas correct.

  15. #15
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Je ne pense pas m'être contredite, je vais essayer de réexpliquer plus clairement :

    Quand on compte la position 30, on compte avec les points
    Quand on recherche 5 caractères, on compte sans les points

    Donc comme j'ai dit :
    C'est au 30ième caractères (incluant le points) mais on récupère de part et d'autre 5 nucléotides (lettres uniquement).
    Qu'est-ce qui ne concorde pas?

  16. #16
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    L'uniligne qui donne le bon résultat (à adapter en récupérant l'affectation de la variable $s) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $ perl -e '($X, $N) = (30, 5);my $sequence = "ATC.GATGAT....ACAGTAGATA..CAGATATG..TTCGCG...ATATAGGCAAG...ATGGATA.CCAGTA.T";$s = join "", @{[substr($sequence, 0, $X-1) =~ /([ATCG])/g]}[-5..-1], @{[substr($sequence, $X-1) =~ /([ATCG])/g]}[0 .. 5];print "s=$s\n" '
    Principe :
    On découpe la séquence en deux morceaux, celui avant le caractère X, et celui après.
    Pour chaque morceau, on récupère avec une regexp les ATCG dans un tableau anonyme dont on prend :
    - pour la première moitié de la séquence, les 5 derniers éléments
    - pour la deuxième moitié de la séquence, les 6 premiers éléments.

  17. #17
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    Qu'est-ce qui ne concorde pas?
    Oublions, c'est clair à présent
    (je n'ai sans doute pas été assez clair moi même quand j'ai demandé des précisions).

  18. #18
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Merci, je vais y regarder et je poserai des questions si besoin

  19. #19
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Je serais sans doute absent cet après-midi.
    Mais j'ai testé l'uniligne, qui retourne bien ce que tu attends.

  20. #20
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    @{[substr($sequence, 0, $X-1) =~ /([ATCG])/g]}[-5..-1]
    Dans cette partie, on prend la sous-séquence de 0 jusqu'à X-1, on récupère un A, T, C ou G mais je ne comprends pas pourquoi de l'indice -5 à -1?

+ Répondre à la discussion
Cette discussion est résolue.
Page 1 sur 2 12 DernièreDernière

Discussions similaires

  1. récupérer une sous chaine de %%D de mon For
    Par touns390 dans le forum Scripts/Batch
    Réponses: 1
    Dernier message: 01/07/2008, 17h14
  2. récupérer une sous-chaîne à partie d'une chaîne
    Par aroua dans le forum Général Java
    Réponses: 8
    Dernier message: 18/04/2008, 15h36
  3. Récupérer une Sous Chaine
    Par ZIED dans le forum Requêtes et SQL.
    Réponses: 1
    Dernier message: 28/11/2007, 10h50
  4. Récupérer une sous chaine de caractère
    Par Alexandre` dans le forum C
    Réponses: 9
    Dernier message: 27/02/2007, 00h15
  5. [String] Récupérer une sous -chaîne sans split
    Par Crazyblinkgirl dans le forum Langage
    Réponses: 3
    Dernier message: 19/07/2004, 14h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo