Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
- d'etre repris dans le document
- de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
- de ne pas comporter de groupe verbal conjugué.
Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".
---> donc en éliminant les groupes verbaux conjugués tu approches de la solution
Ensuite tu trouveras surement un truc du genre:
La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...
--> reprise dans l'intro du titre
meme demarche pour la conclusion.
Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.
Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.
Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...
Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.
Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter
voila voila
Partager