Extraire données à partir d'une url

**vinserm** · 13/03/2015, 00h09

Bonjour à tous,

Je suis post doctorant en microbiologie et pour un de mes projets j'ai trouvé une page (http://www.ncbi.nlm.nih.gov/nuccore/...918823_gene_25) sur laquelle j'aimerais extraire les noms des gènes appelés ici xxx (/gene="xxx") dans un fichier puis leur associer une fonction.
Ayant déjà utilisé un peu R auparavant pour des stats et des représentations graphiques, je voulais faire un script pour l'extraction des motifs qui m'intéressent. En voici le début :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
URL    <- "http://www.ncbi.nlm.nih.gov/nuccore/AP001918.1#feature_8918823_gene_25"
genes <- read.delim(URL)
genes <- as.character(genes[,1])
these <- grep("/gene=", genes)

Cependant je n'arrive pas à récupérer spécifiquement le motif qu'il y a derrière "/gene="
Est ce quelqu'un à des pistes à me donner ?
Merci pour votre aide

**Theta** · 13/03/2015, 12h07

Utilise la fonction gsub pour remplacer "/gene=" par "" ou "/gene=(motif)" par "\\1".

**vinserm** · 13/03/2015, 16h55

merci pour cette fonction intéressante mais je n'arrive toujours pas à obtenir une liste dans laquelle tous mes gènes sont extraits, j'arrive au mieux à avoir une liste de nombres qui sans doute doivent correspondre à la position des "/gene="

**Theta** · 13/03/2015, 17h33

Vu que je pourrais en avoir besoin un jour je me suis un peu plus penché sur le problème.

En fait il existe un package R pour requêter directement les bases de données ncbi : rentrez.
Ça doit être plus pratique que de parser le html de leur site web.

**vinserm** · 25/03/2015, 17h51

Très intéressant le package "rentrez", je le garde en tête pour les prochaines fois !

Finalement, j'ai résolu mon problème en récupérant mes données à partir de l'URL pubmed (sequence.gb)
sur le terminal $ grep/gene sequence.gb j'obtiens

/gene="fimO"
/gene="fimO"
...

J'élimine "/" en utilisant la commande remplacer sur TextEdit.

(Je n'arrive pas à le faire proprement sur R)

La suite, sur R par contre, consiste à attribuer une description à chaque gène à partir d'un fichier (description.txt)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
geneid<-read.table(paste("description.txt",sep=""),header=TRUE,na.string=".",sep="\t")
coding<-read.table("sequence.gb",header=TRUE,na.string=".",sep="\t")
coding.new<-geneid[geneid[,"systname"] %in% t(coding),]
write.table(coding.new,paste("sequence.new.txt",sep=""),append = FALSE,sep="\t",row.names=FALSE)

Extraire données à partir d'une url

R

Discussions similaires

Partager

Partager