Regex permettant de retourner la liste des mots

**elekaj34** · 02/11/2011, 08h51

Bonjour,

Je dois zapper un truc "tout con", mais avec un preg_match_all, je souhaite créer un table qui contient la liste des mots d'une chaîne de caractères en supposant également que plusieurs espaces doivent compter comme un seul !

Ainsi la chaîne suivante :

"Voici un texte ou certains mots sont séparés de plusieurs espaces"

devra me retourner le tableau suivant :

Array
(
[0] => "Voici"
[1] => "un"
[2] => "texte"
[3] => "ou"
[4] => "certains"
[5] => "mots"
[6] => "sont"
[7] => "séparés"
[8] => "de"
[9] => "plusieurs"
[10] => "espaces"
)

Mais j'arrive pas a trouver la bonne regex permettant de faire considérer plusieurs espaces comme un seul

**kalimukti** · 02/11/2011, 11h21

Hello,
Tu peux aussi faire les choses en deux étapes:
réduire les espaces successifs >1 en ' ':

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$texte = preg_replace('/\s{2,}/', ' ', $texte);

cf sujet sur forum
et ensuite, tu peux faire un explode .
NB: A mon avis, tu dois pouvoir aussi tout faire directement avec preg_split mais je ne l'ai jamais encore utilisée...

**stealth35** · 02/11/2011, 11h32

str_word_count ?

**elekaj34** · 02/11/2011, 12h00

Re,

J'ai utilisé ce bricolage,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$texte="Voici un texte   ou  certains mots sont séparés de plusieurs espaces";
$out=array_slice(array_unique(explode(" ",$texte)),0);

c'est pas parfais, convient largement à mon besoin

Par contre, je pensais (naïvement) pouvoir faire cela proprement avec une regex et un simple preg_match

**kalimukti** · 02/11/2011, 13h14

Envoyé par elekaj34

Par contre, je pensais (naïvement) pouvoir faire cela proprement avec une regex et un simple preg_match

résultat plus propre (sans un resultat avec un chaine vide, comme dans ton code), avec regex:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
$texte="Voici un texte  ou   certains mots sont séparés de plusieurs espaces";
$out=preg_split("/[\s]+/", $texte);
var_dump($out);

**stealth35** · 02/11/2011, 13h20

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$texte="Voici un texte  ou   certains mots sont séparés de plusieurs espaces";
$out = str_word_count($texte, 1);

**kalimukti** · 02/11/2011, 13h28

Envoyé par stealth35

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$texte="Voici un texte  ou   certains mots sont séparés de plusieurs espaces";
$out = str_word_count($texte, 1);

ouai

en effet
marche aussi pour des séparateurs genre ',', '/'... en plus on peut paramétrer le retour... merci stealth (connaissait po

)

**elekaj34** · 02/11/2011, 14h03

La version avec str_word_count marche .... a peu près (chez moi les accents sont comptés comme séparateur).

Sinon, la soluce de kalimukti marche au poil

Merci à vous

**Doc_xhtml** · 03/11/2011, 00h54

Bonjour,

Je ne connaissais pas non plus str_word_count. J'essaierai

Par contre, j'utilise preg_split avec un bon paquet de délimiteurs :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$regex = '#[ ,/\&\"\#\'\{\(\[\-\|\_\\\^\@\)\°\]\=\+\}\$\%\*\<\>\?\;\.\:\!\§]+#Us';
$words = preg_split($regex, $value, -1, PREG_SPLIT_NO_EMPTY);

**stealth35** · 03/11/2011, 10h02

Envoyé par Doc_xhtml

Bonjour,

Je ne connaissais pas non plus str_word_count. J'essaierai

Par contre, j'utilise preg_split avec un bon paquet de délimiteurs :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$regex = '#[ ,/\&\"\#\'\{\(\[\-\|\_\\\^\@\)\°\]\=\+\}\$\%\*\<\>\?\;\.\:\!\§]+#Us';
$words = preg_split($regex, $value, -1, PREG_SPLIT_NO_EMPTY);

\b est le délimiteur de mot, suffit de rajouter - et ', et c'est ok

**Doc_xhtml** · 03/11/2011, 10h32

Merci Stealth de ta suggestion

Effectivement, il y avait plus simple que d'énumérer tous les séparateurs du clavier.

(Je voulais permettre à l'utilisateur de définir en toute liberté ses propres séparateurs.)

Je corrigerai mon code en conséquence.

**Doc_xhtml** · 10/12/2011, 00h32

Envoyé par stealth35

\b est le délimiteur de mot, suffit de rajouter - et ', et c'est ok

Bonjour Stealth,

Il y a peut-être quelque chose que je n'ai pas compris.
Lorsque j'utilise l'ancienne regex, le code ci-dessous me génère bien la table des mots.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$regex = "#[ ,/\&\"\#\'\{\(\[\-\|\_\\\^\@\)\°\]\=\+\}\$\%\*\<\>\?\;\.\:\!\§]+#Us";
$words = preg_split($regex, $value, -1, PREG_SPLIT_NO_EMPTY);

Par contre, lorsque je simplifie la regex en utilisant \b,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$regex = "#[\b\-\']+#Us";
$words = preg_split($regex, $value, -1, PREG_SPLIT_NO_EMPTY);

$words[0] contient la chaîne $value entière mais la table des mots n'est pas générée.

Où est l'erreur ?

**Djakisback** · 10/12/2011, 01h13

Salut,
c'est dû au fait que tu le mettes entre crochets, du coup le pattern match la 'classe mots'. Par contre, t'auras les espaces considérés comme des mots avec ce pattern.

(\b est dépendant de l'encoding et str_word_count() de la localisation définie, il vaut mieux définir le pattern sur le split plutôt que sur ce que tu veux conserver)

**Doc_xhtml** · 10/12/2011, 23h14

Envoyé par Djakisback

c'est dû au fait que tu le mettes entre crochets, du coup le pattern match la 'classe mots'. Par contre, t'auras les espaces considérés comme des mots avec ce pattern.

Merci de ta réponse, Djakisback.

J'avoue ne pas bien comprendre. Dans les exemples de preg_split, on trouve des expressions du type

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_split("/[\sautres_caractères_de_séparation]+/", chaîne)

En quoi sur le fond le délimiteur \b diffère-t-il du délimiteur \s ? Pourquoi ne peut-on pas le mettre entre crochets ?
J'ai essayé la syntaxe

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_split("#\b#", chaîne)

J'obtiens une table contenant les mots, mais aussi les espaces, les délimiteurs tels que / ainsi que les caractères accentués qui sont considérés comme délimiteurs (mais non affichés par print_r).

Envoyé par Djakisback

(\b est dépendant de l'encoding et str_word_count() de la localisation définie, il vaut mieux définir le pattern sur le split plutôt que sur ce que tu veux conserver)

Excuse-moi, je n'ai pas vraiment compris ce que tu veux transmettre.

**Djakisback** · 11/12/2011, 20h59

Finalement, je ne m'explique pas pourquoi \b défini dans une classe via les crochets ne matche pas les délimiteurs de mots. En tout cas avec :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$out = preg_split("/[\b]/Us", $texte);

aucun délimiteur n'est matché, donc preg_split() retourne la chaîne complète, de la même manière que :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_match_all("/[\b]/Us", $texte, $out);

ne retourne aucun résultat.

Au sujet de :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_split("#\b#", chaîne)

c'est ce que je disais à propos de l'encoding. Par défaut, seuls les caractères de la classe [a-zA-Z0-9_] sont considérés comme des caractères de "mot", l'ASCII non étendu en fait, si je ne m'abuse.
On peut utiliser l'option /u pour analyser les caractères en tant qu'UTF-8.

Le problème est quasiment le même avec str_word_count() qui lui, analyse les chaînes en fonction de la locale définie, mais qui en plus va bugger si c'est de l'UTF-8 car il ne gère pas le multibytes il me semble.

Ce que je voulais dire par ma dernière phrase c'est qu'à mon avis utiliser un pattern de ce type (donc comme tu le faisais) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$out = preg_split("/[\s;:,!)(etc.]+/", $texte, null, PREG_SPLIT_NO_EMPTY);

c'est à dire travailler sur ce qu'on veut splitter et non pas sur la notion de 'mot', me semble beaucoup plus portable si on excepte certaines langues particulières comme le Japonais, etc. Un avis personnel bien sûr

(une autre soluce serait de forcer l'utf-8 et d'utiliser plutôt match_all afin de ne pas récupérer les espaces et délimiteurs dans le tableau final comme c'est le cas avec $out = preg_split("/\b/Uu", $texte) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_match_all("`\w+?`Uu", $texte, $out);

)

**stealth35** · 12/12/2011, 09h25

je te déconseille fortement d’utiliser l'opérateur d'exécution (`) pour délimiter tes regex

Regex permettant de retourner la liste des mots [RegEx]

Langage PHP

Discussions similaires

Partager

Partager