Bonjour à tous,
J'ai une petite question concernant la lecture de fichier au format .csv par la librairie numpy ainsi que du traitement
J'ai un fichier CSV avec plusieurs colonnes. Je souhaiterai nommer chaque colonne et après ne garder que les lignes qui m'intéresse, c'est-à-dire répondant à certains critères prédéfinis.
Voici un exemple de mon fichier .csv :
Je ne souhaite garder que les lignes où l'objet Corot dépasse les 10.000 dans la colonne ID.
Voici donc mon code :
1) Est-ce-que "recfromcsv" est le plus optimisé pour mon code ou dois-je plutôt passer par genfromtxt ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 # !/usr/bin/python # -*- coding : utf-8 -*- import numpy as np data = np.recfromcsv('corot-resultat.csv', delimiter=',', filling_values=np.nan) # Lire toutes les lignes de data, et ne garder que celles ou Corot xx..xx => 100000 #Pour chaque ligne dans data : #Si Corot => 100000, on passe a la ligne suivante, sinon, on supprime la ligne #for line in data.readlines() : print data
2) Comment puis-je nommer des colonnes sous numpy et fixer des critères pour ne m'afficher que les lignes répondant aux critères (voir exemple image) ?
Je ne veux pas forcément de code tout prêt, mais plutot des pistes pour chercher par moi-même
Cordialement
Partager