DataFrame str.contains

**Fr3ako** · 09/06/2021, 13h58

Bonjour,

1ers pas en python et je galère beaucoup...
J'ai exporte un File.csv avec près de 800k lignes et 70 colonnes
Voici mon programme:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import pandas as pd
import numpy as np
data = pd.read_csv("File.csv")
 
List1 = ['A', 'B', 'C', 'D', 'E']
data1 = data[(data['Column3 '].isin(List1))]
## Je garde toutes les lignes dont la Column3 est identique aux items de List1 (a savoir A, B...ou E) 
 
## Sur cette df data1, je veux ensuite appliquer un filtre pour supprimer toutes les lignes dont la ColumnV contiendrait
## le texte Impossible, Possible et/ou Hypothese
 
data2 = data1[~data1['ColumnV'].str.contains("Impossible")] 
data3 = data2[~data2['ColumnV'].str.contains( "Possible")]
data4 = data3[~data3['ColumnV'].str.contains( "Hypothese")]

Jusqu'ici tout va bien malgré la lourdeur du code...

Sachant que je veux supprimer énormément de lignes avec de nombreux mots non pertinents pour le problème, j'ai essayé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
List2=["Impossible", "Possible", "Hypothese"]
data2 = data1[~data1['ColumnV'].str.contains(List2)]

Message d'erreur...Comment pourrais-je condenser mon code avec tous les mots (Impossible, Possible...) qui ne me plaisent pas regrouper?

Merci de vos conseils

**wiztricks** · 09/06/2021, 15h45

Salut,

Envoyé par Fr3ako

Comment pourrais-je condenser mon code avec tous les mots (Impossible, Possible...) qui ne me plaisent pas regrouper?

L'idée d'utiliser str.contains n'est pas mauvaise mais il faudrait avoir le réflexe d'ouvrir la documentation pour voir ce qu'on peut faire avec.
On y verra qu'on peut lui passer une expression régulière (pour le "comment", voir les exemples). Ce qui pourrait faire le boulot.

- W

**Fr3ako** · 09/06/2021, 18h29

Salut Wiz,

Merci pour ton retour.
Oui on peut lui passer une expression reguliere mais ma ColumnV est remplie de commentaires differents.
Le principe serait que des qu'un mot interdit de ma Liste2 est detecte a l'interieure de cette cellule, toute la ligne soit supprimee...

Ca marche bien si j'ecris une ligne de code pour chaque mot interdit mais je ne comprends pas pourquoi il ne peut pas accepter plusieurs strings a la fois.

J'ai essaye avec ~isin() mais il demande le string exacte et les commentaires sont trop longs et trop nombreux pour les inserer dans une liste.

**Fr3ako** · 09/06/2021, 18h57

Je crois que j'ai trouvé en utilisant ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
searchfor=["Impossible", "Possible", "Hypothese"]
data2 = data1[~data1['ColumnV'].str.contains('|'.join(searchfor))]

Je pense qu'il va chercher OU Impossible OU Possible OU Hypothèse et m'effacer la ligne si détectée.

**wiztricks** · 09/06/2021, 19h27

Envoyé par Fr3ako

Je pense qu'il va chercher OU Impossible OU Possible OU Hypothese et m'effacer la ligne si detectee.

Pourquoi "penser", c'est le sens de cette expression régulière et la documentation donne un exemple avec s1.str.contains('house|dog', regex=True).

Le seul boulot est de vérifier que çà fait bien ce qu'on a compris que çà doit faire (ce qui est le travail de lecture technique d'une documentation... même lorsque çà dit appuyer sur le bouton avec le label B3 sur la figure 3, on regarde la photo, on compare avec la machine pour voir si on trouve B3 puis on appuie dessus pour voir si çà fait ce que çà dit).

- W

**Fr3ako** · 09/06/2021, 20h18

Wiz,

Ce n'est pas parce que je debute en Python et que j'essaye de trouver mes marques avec ce nouveau langage (meme sans tout comprendre a la doc) que la post-analyse et confirmation ne sera pas faite derriere, je n'en suis pas a mon 1er rodeo...

Merci a toi

DataFrame str.contains

Calcul scientifique Python

Discussions similaires

Partager

Partager