S'il vous plait est ce qu'il un quelqu'un qui me propose un algorithme qui permet de découper une phrase (tokenisation ) merci
S'il vous plait est ce qu'il un quelqu'un qui me propose un algorithme qui permet de découper une phrase (tokenisation ) merci
Bonjour
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7$ perl -e 'foreach $mot (qw(Ceci est une phrase au hasard)) {print $mot."\n";}' Ceci est une phrase au hasard
Au suivant...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7 phrase$="Ceci est une phrase au hasard" dim tableau$(10) For x= 1 to len(phrase$) x$= word$(phrase$,x) print x$: tableau$(x)=x$ next x
merci pour vos réponses. Je ne voulais pas que la découpage de la chaine de caractère soit en c
Est ce vous pouvez me proposer un algorithme de tokenisation en citant les étapes seulement . Je vous donne un exemple:
- L'algorithme fonctionne continuellement
- "le" "algorithme" "fonctionne" "continuellement"
Merci
Qui dit "tokénisation" dit "tokens"; pour poser des tokens, il faut une (ou des) règle(s) (découpage par mot, par N mots, par mots particuliers...ext)
Une chaine est en général de longueur finie, et donc l'algo qui traite une chaine s'arrête à la fin de la chaine.
Un algo qui fonctionne continuellement, c'est à éviter (boucle infinie--> machine hors de contrôle)
salut
imaginon que tu veuille lire une ligne
le code de fin de ligne est #13
et que la separation des token(mots) soit réalisé par un espace
donc ton algo aura une une structure de ce genre du genre
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 Fin = #13; Sep = ' '; C = Lirecaractere Mots =''; TansQue (C <>Fin) Faire TansQue (C <> Sep) and (C <>Fin) Faire Mots = Mots + C; C = Lirecaractere FinTanQue SI Mots <> '' ALORS AjouteToKenDansListe(LST,Mots) FINSI Mots =''; SI (C <>Fin) ALORS C = Lirecaractere FINSI FinTanQue
salut valentin
dans le contexte de découper une phrase le jeton deviens le mots
effectivement il a pas définis les règles exact de sont découpage mais le principe seras toujours le même
tu lit ta phrase jusqu'au bout ... celle-ci seras divisé par des séparateur prés défini (blancs,parenthèse,accolade,point-virgule,virgule,...) aux choix de la personne
La tokenrisation d'une phrase est un abus de langage ... ici on ne fait pas de compilation on a pas de mots réservé,de chaîne ....
c'est pour cela que j'ai fait un raccourci entre le token ... jeton et le mots trouvé
Partager