// PRÉREQUIS
Cette version nécessite l’installation de la dernière extension multi-dictionnaires, la version 4.11, car l’étiquetage grammatical a changé.
Sans cette extension, le correcteur grammatical sera dans certains cas incapable de comprendre ce que sont certains mots. Pareillement, évitez d’installer la nouvelle extension multi-dictionnaires avec les anciennes versions de Grammalecte.
// JOURNAL DES MODIFICATIONS (résumé)
— Moteur multi-passes et réorganisation des règles de contrôle
— Moins faux positifs (comme d’habitude)
— Bugs divers corrigés
— Le lexicographe : informe de la nature grammaticale des mots dans le menu contextuel
— Le formateur de texte : formatage automatique du texte (apostrophes, espaces, etc.), accessible depuis le menu Outils
// MOTEUR MULTI-PASSES ET PRÉPROCESSEUR DE TEXTE
La nouveauté majeure, la plus discrète, concerne le moteur interne du correcteur. En version 0.1, Grammalecte, à l’instar de LanguageTool, n’effectuait qu’une seule passe sur le texte. Avec la version 0.2, le moteur en faisait deux (une paragraphe par paragraphe, une phrase par phrase) et utilisait un préprocesseur pour simplifier le texte entre les deux passes.
Concrètement, ça revenait à ôter les signes graphiques encombrants, les adverbes, les locutions adverbiales et les expressions usuelles. Je ne reviens pas dessus, il suffit de relire ce que j’ai écrit sur la version 0.2 (
http://www.dicollecte.org/thread.php?prj=fr&t=283).
Avec la version 0.3, le correcteur peut effectuer un nombre de passes théorique illimité, avec pour chacune d’elles un préprocesseur qui simplifie le texte et ôte ce qui n’est plus utile à la vérification. À présent, pour le français, cinq passes sont faites, et d’autres viendront peut-être à l’avenir selon les besoins.
Voici grosso modo comment ça se passe :
—> Passe 0, paragraphe par paragraphe
— Préprocesseur : suppression des URL
— Vérification des signes graphiques : apostrophes, ponctuation, espaces, guillemets, etc.
—> Passe 1, phrase par phrase
— Préprocesseur : suppression des signes graphiques encombrants (guillemets, certains tirets)
— Contrôle de cohérence entre certaines catégories de mots
—> Passe 2
— Préprocesseur : suppression des adverbes, locutions adverbiales, expressions usuelles, etc.
— Contrôle des groupes nominaux
—> Passe 3 & 4
— Préprocesseur : suppression de certains pronoms et adverbes entourant les verbes
— Contrôle des conjugaisons
Si le moteur multi-passes est au point, en revanche, la réorganisation des règles de contrôle n’en est qu’à son commencement. Le potentiel du nouveau moteur se déploiera au fur et à mesure des versions ultérieures. Comme d’habitude, je préfère opérer une montée progressive des ajouts et des modifications pour éviter une explosion des faux positifs.
Et comme toujours, la nouvelle version introduit de nouvelles règles de contrôle, corrige nombre de bugs mineurs et réduit le nombre de fausses alertes.
Enfin et surtout elle apporte avec elle de nouveaux outils annexes.
// LE LEXICOGRAPHE
Cet outil est très simple à utiliser, il est purement informatif. Sur un clic droit, le menu contextuel indique quelle est la nature grammaticale du mot sur lequel se trouve le curseur : nom, adjectif, adverbe, verbe, etc.
Cette fonction est un peu expérimentale, mais fonctionne sans poser de problème particulier. Si vous constatez une erreur dans l’étiquetage, il faut proposer une modification du dictionnaire, car cet outil ne fait que transcrire de manière lisible les étiquettes inscrites dedans.
L’étiquetage du dictionnaire n’est pas toujours cohérent, observerez-vous peut-être. Par exemple, pour un nom masculin ou féminin, il peut y avoir une entrée étiquetée épicène, ou bien deux entrées, l’une disant que le nom est masculin, l’autre qu’il est féminin.
Requis : LibreOffice 4+, OpenOffice 3.4+. Ça ne fonctionne pas avec OpenOffice.org et LibreOffice 3.x à cause d’un bug de l’API corrigé dernièrement. Même avec ces versions, vous pouvez tout de même installer l’extension. Le correcteur grammatical fonctionnera, mais cette fonction sera inopérante.
Note : cet outil permettra à l’avenir d’afficher d’autres informations lexicales, sémantiques ou étymologiques. C’est déjà possible en fait, mais ça complique la tâche du correcteur grammatical, car ces informations sont disposées au beau milieu des étiquettes grammaticales (c’est dû à la structure du dictionnaire, et ce n’est pas modifiable). Pour bénéficier de ces informations, il faudrait ou bien tolérer une perte de performance du correcteur grammatical, ou bien recomposer tout le lexique dans un automate à états finis binaire indexable. La 2e solution a ma préférence, c’est le remède à beaucoup de problèmes, mais ce n’est pas pour tout de suite.
// LE FORMATEUR DE TEXTE
Cet outil, là encore assez simple, sert à automatiser le processus de correction des erreurs les plus communes, notamment typographiques. Si vous en avez marre de corriger une par une les apostrophes droites, les espaces surnuméraires, les guillemets et toutes sortes d’erreurs récurrentes, cet outil est fait pour vous. J’ai testé l’outil plusieurs fois, mais je vous recommande de l’essayer en premier lieu sur des textes assez courts, afin de vérifier qu’il ne corrompt rien.
Note : l’outil touche aux espaces, mais pas aux tabulations. Même si beaucoup font des mises en page dégueulasses avec des tabulations, il m’a paru dangereux de modifier automatiquement celles-ci.
Accès : menu Outils > Formateur de texte
Captures d’écran :
http://www.dicollecte.org/grammalecte/outils.php
Téléchargement :
http://www.dicollecte.org/grammalecte/telecharger.php
*** DICTIONNAIRES 4.11 ***
— environ 700 nouvelles entrées,
— révision de l’étiquetage grammatical,
— étiquetage grammatical à 100 % (il manquait 0,2 % depuis pas mal de temps).
Cette version du dictionnaire est INDISPENSABLE au bon fonctionnement de Grammalecte 0.3.
Vous ne devez pas utiliser cette extension avec les anciennes versions de Grammalecte (0.2.x et antérieures).
Téléchargement :
http://www.dicollecte.org/grammalecte/telecharger.php
Olivier
Partager