IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Supprimer tout ce qui n'est pas un mot [RegEx]


Sujet :

Langage PHP

  1. #1
    Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    3
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3
    Points : 2
    Points
    2
    Par défaut Supprimer tout ce qui n'est pas un mot
    Bonjour à vous bon première chose cette regexp n'est pas destinée a PHP mais a python, cependant étant donné que ce sous forum est spécialisé dans les regexp et qu'après tout entre les regexp python et php la différence est plus que minime je me suis dis que je pouvais me permettre de poser ma question ici.

    Voila mon problème est je pense simple, je fais un script comptant les occurences d'un mot / groupe de mot passé en parametre dans une chaine de caractère (qui peut très bien faire 12 000 ligne avec caractère de formatage caractère unicode et toute autre saleté du genre). le souci est que je dois par exemple etre capable de matcher "je dis non" dans "et la, je dis: non" ou "je lui dis 'non'" ou encore "moi je dis ___non!!!" bref vous voyez le genre

    Pour ça après moult essai j'en viens a la conclusion que le plus simple serait de retirer l'integralité des caractère speciaux (!#& \ ' - et j'en passe mais aussi les caractere d'echappement \n les tabulations \t etc..) donc tout ce qui n'est pas alphanumerique SAUF deux exceptio a savoir les apostrophes et les tirets qui sont située a l'interieur d'un mot et donc qui font partie intégrante de ce mot tel que o'maley ou arc-en-ciel

    seulement voila ça fait un moment que je planche sans succès

    mon dernier essai marchant a moitié était cet immondice:

    """ \s+
    | (\'\')+
    | (?=[a-z0-9])([^a-z0-9\s\']+ | \'+[^a-z0-9\'] | [^a-z0-9]+$)
    | ([^a-z0-9\s\']+ | [^a-z0-9\']\'+ | ^[^a-z0-9])(?=[a-z0-9])
    | [\b^] [^a-z0-9]+ [\b$]
    """

    bref et sur le papier j'en suis arrivé a ceci :
    [^(\A?[a-z0-9]+([\'-][a-z0-9]+)?\Z?)]

    seulement la regexp ne veut même pas être compilée j'ai le droit a une erreur : nothing to repeat j'ai beau la tourner dans tous les sens je vois pas ce qui cloche

    juste au cas ou ça ne soit pas pareil en PHP, en python \A signifie un debut de chaine, et \Z une fin de chaine en gros c'est ^ et $ mais comme j'ai toujours peur qu'ils soient mal interpreté ces deux la...


    Je vous remercie par avance

  2. #2
    Rédacteur/Modérateur

    Avatar de Antoun
    Homme Profil pro
    Architecte décisionnel
    Inscrit en
    Octobre 2006
    Messages
    6 284
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Architecte décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2006
    Messages : 6 284
    Points : 11 738
    Points
    11 738
    Par défaut
    si \A veut dire ^, pourquoi tu utilises aussi ^ ? et que veut dire \A? ?

  3. #3
    Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    3
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3
    Points : 2
    Points
    2
    Par défaut
    Citation Envoyé par Antoun Voir le message
    si \A veut dire ^, pourquoi tu utilises aussi ^ ? et que veut dire \A? ?
    Je me suis peut être mal exprimé, \A signifie début de chaine, mais ^ signifie egalement début de chaine (c'est du moins ce que j'en ai déduis en lisant la doc du module regexp) si il n'est pas échappé (\^) ou si il n'est pas placé derriere un crochet ouvrant [^ ce qui signifie que le set contenu dans [ ] est complémentén c'est juste que \A ne peut pas avoir de fonction differente suivant sa position dans la regexp c'est pourquoi je le prefere au symbole ^ et respectivement je prefere utilisé \Z a $, maintenant si ça pose probleme :

    [^(^?[a-z0-9]+([\'-][a-z0-9]+)?$?)] hop :p

    si jamais je me trompe merci de me corriger, pour info voici les lignes concernant ces symboles dans la doc du module RE
    "^" Matches the start of the string.
    "$" Matches the end of the string.
    \A Matches only at the start of the string.
    \Z Matches only at the end of the string.

    j'ai rajouté ces regles car dans mes tests de regexp precedant si je précisais pas qu'il est possible que ce soit le debut de la string il me matchait pas l'expression si elle etait la premiere ou la derniere de la chaine...

    edit : autre façon d'aborder le sujet,

    (\b[^a-z0-9]+ | [^a-z0-9]+\b | \s+) remplacé par ' '

    ou \b Matches the empty string, but only at the start or end of a word.
    et \s Matches any whitespace character; equivalent to [ \t\n\r\f\v].

    ne semble toujours pas fonctionner

  4. #4
    Rédacteur/Modérateur

    Avatar de Antoun
    Homme Profil pro
    Architecte décisionnel
    Inscrit en
    Octobre 2006
    Messages
    6 284
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Architecte décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2006
    Messages : 6 284
    Points : 11 738
    Points
    11 738
    Par défaut
    Citation Envoyé par Astorz
    maintenant si ça pose probleme :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    [^(^?[a-z0-9]+([\'-][a-z0-9]+)?$?)]
    Ce qui me pose problème n'est pas que tu utilises telle ou telle notation. C'est que le début de ta regex, à savoir [^(^?, signifie ceci : "le début de la chaîne, suivi éventuellement d'un autre début de chaîne"...

    Citation Envoyé par Astorz
    j'ai rajouté ces regles car dans mes tests de regexp precedant si je précisais pas qu'il est possible que ce soit le debut de la string il me matchait pas l'expression si elle etait la premiere ou la derniere de la chaine...
    Je pense que tu as un peu sur-interprété le résultat de tes tests... car le fait d'ajouter une ancre de début fait que ça ne matche qu'en début de chaîne.

  5. #5
    Rédacteur/Modérateur

    Avatar de Antoun
    Homme Profil pro
    Architecte décisionnel
    Inscrit en
    Octobre 2006
    Messages
    6 284
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Architecte décisionnel
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2006
    Messages : 6 284
    Points : 11 738
    Points
    11 738
    Par défaut
    Citation Envoyé par Astorz
    Pour ça après moult essai j'en viens a la conclusion que le plus simple serait de retirer l'integralité des caractère speciaux (!#& \ ' - et j'en passe mais aussi les caractere d'echappement \n les tabulations \t etc..) donc tout ce qui n'est pas alphanumerique SAUF deux exceptio a savoir les apostrophes et les tirets qui sont située a l'interieur d'un mot et donc qui font partie intégrante de ce mot tel que o'maley ou arc-en-ciel
    Un mot selon ta définition s'exprime ainsi : Je te conseillerais te passer cette regex sur ton texte en récupérant tous les matchs (en PHP, ce serait un preg_match_all, en Python je n'en ai aucune idée).

  6. #6
    Candidat au Club
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    3
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3
    Points : 2
    Points
    2
    Par défaut
    Je vous remercie pour vos réponses , j'ai pu résoudre mon problème en repartant une énième fois à zero, à vrai dire j'étais très mal parti étant donné que je n'avais pas compris certaines des règles à appliquer et je faisais fausse route en désirant retirer tout caractère non alpha numérique. Je m'excuse par conséquent par la perte de temps que je vous ai occasioné :/

    Bonne soirée ! (et pour ma part bonne nuit ^^).

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Toutes versions] Supprimer le texte qui n'est pas entre deux lignes
    Par vibos dans le forum VBA Word
    Réponses: 11
    Dernier message: 11/06/2009, 23h44
  2. [array] supprimer un élément qui n'est pas le dernier
    Par SpaceFrog dans le forum Général JavaScript
    Réponses: 9
    Dernier message: 16/04/2008, 20h41
  3. Supprimer un enregistrement et tout ce qui y est affecté
    Par 4rocky4 dans le forum VBA Access
    Réponses: 6
    Dernier message: 27/02/2008, 22h11
  4. Récupérer tout ce qui n'est pas dans la base
    Par SnakeBoudoir dans le forum Requêtes
    Réponses: 2
    Dernier message: 01/11/2006, 19h18
  5. LIKE de tout ce qui n'est pas compris entre a<-&
    Par DjinnS dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 28/07/2003, 13h09

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo