Algo de création de titre pour document

**scaleo** · 10/09/2006, 21h30

Bonjour, je travaille actuellement sur un desktop search perso, mais je suis confronté a un problème certain document de mon pc non par de titre très parlant ont dira du genre 06 - 04 - 2005 c'est pas vraiment très préçis

.

Je me suis donc mis a la recherche d'un algorithme capable a partir du contenue textuel d'un document de générer un titre le plus exhaustif possible et je n'ai rien trouvé, c'est surtout que je ne sais pas quoi cherché.

merci de votre aide parce que la je galère vraiment !!!!

**ToTo13** · 11/09/2006, 10h19

Bonjour,

la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.

**zooro** · 11/09/2006, 10h25

Envoyé par ToTo13

la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.

Oui, du genre synthèse automatique sous Word.

**cladsam** · 11/09/2006, 15h17

Bonjour,

ce dont tu parles la, c'est du domaine du TAL ( Traitement Automatisé des Langues). Tu peux faire des recherches sur des "plates formes d'indexation" ou "indexation". Je te conseilles des sites de linguistique, renseigne toi sur les bases de connaissance.
Je te recommande CECI comme première piste de recherche, c'est un site issu d'un projet de recherche de l'INIST CNRS à Nancy tu devrais y trouver des pistes sérieuses.
fait également des recherches sur les lemmatiseurs.

**scaleo** · 12/09/2006, 17h31

Effectivement tout cela est très intéressant et c'est exactement ce que je cherche

j'ai par contre une intéragation les algorithme de " lemmatisation " sont il suffisament rapide pour permetre une génération des titres a la volé ou vaut il mieux que je " lemmentise " dès l'indexation

**cladsam** · 12/09/2006, 17h48

Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
- d'etre repris dans le document
- de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
- de ne pas comporter de groupe verbal conjugué.

Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".

---> donc en éliminant les groupes verbaux conjugués tu approches de la solution

Ensuite tu trouveras surement un truc du genre:

La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...

--> reprise dans l'intro du titre

meme demarche pour la conclusion.

Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.

Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.

Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...

Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.

Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter

voila voila

**scaleo** · 09/10/2006, 22h10

Envoyé par cladsam

Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
- d'etre repris dans le document
- de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
- de ne pas comporter de groupe verbal conjugué.

Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".

---> donc en éliminant les groupes verbaux conjugués tu approches de la solution

Ensuite tu trouveras surement un truc du genre:

La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...

--> reprise dans l'intro du titre

meme demarche pour la conclusion.

Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.

Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.

Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...

Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.

Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter

voila voila

Les sources de cet algo m'interesse beaucoup !!

**Graffito** · 10/10/2006, 21h06

Bonjour,

Juste une petite remarque :
Les mots/expressions intéressants pour le titre doivent non seulement apparaître souvent dans le document (sans être des mots "outils"), mais également être discriminant par rapport aux autres documents, c'est à dire apparaître dans peu de documents.

**scaleo** · 11/10/2006, 10h58

Pour les dictionnaires je voulais utiliser ceux de http://www.freelang.com/mais ils sont dans un fichier binaire

, il ne me reste plus qu'a trouver comment les lire et extraire les mots

J'ai déjà une liste de 22 740 mots pour le français

**scaleo** · 11/10/2006, 22h05

J'ai trouvé des lemmantiseurs en perl http://search.cpan.org/~creamyg/Ling...em/Snowball.pm

.

Donc en reprenant si j'ai bien tout compris je prend dans mon texte disont les 40 premier et dernié caractères, avec un lemmantiseur de recherche la base verbal de chacune des deux string puis une fois que j'ai sa , je fait quoi exactement ???

Je doit être chiant avec mes questions

J'ai des dicos EN/FR

J'ai des lemmantiseurs

Je découpe mes string

me manque plus que la dernière étape

En suivant grafito, cette dernière étape concisterai a filtrer les mots vide de mes string et compter combien de fois les mots survivant et ou mots proche (levensthein est mon amie

) sont utilisé dans le document, et le titre serait tout simplement la string ayant le plus grand score

**cladsam** · 11/10/2006, 22h50

Envoyé par scaleo

Je découpe mes string

Bah il va te rester que des morceaux de ficelle alors

**scaleo** · 11/10/2006, 22h57

Envoyé par cladsam

Bah il va te rester que des morceaux de ficelle alors

Non je préfère le cuir

et un bon fouet

---> []

**goblin** · 12/10/2006, 13h28

Perso je ne me prendrais pas la tête avec la lemmantisation , a moins d'avoir une armée de linguiste a ta disposition c'est du suicide

-> Extraire une chaine au début du document et a la fin du document
-> Cherche dans qu'elle langue est rédigé le document fait toi des dico de trigramme pour sa
-> Supprimer les mots vide du document et de ta chaine en fonction de la langue
-> Pour chacun des mot de ta chaine chercher sont nombre d'occurence dans le document.
-> Cherche avec la distance de levenstein tout les mots proche ayant un indice entre 1..6 par exemple : 1 = 0.512, 2 = 0.256 ... 6 = 0.16
-> Donc tu additonne les résultats de chaque mot de chaque chaine pis bah heu c'est la chaine qui a le plus grand score qui a gagné

Fait gaffe avec le fouet et tire pas trop sur ton string

ok moi aussi ---> []

**mobscene** · 13/10/2006, 20h17

Envoyé par Graffito

Bonjour,

Juste une petite remarque :
Les mots/expressions intéressants pour le titre doivent non seulement apparaître souvent dans le document (sans être des mots "outils"), mais également être discriminant par rapport aux autres documents, c'est à dire apparaître dans peu de documents.

J'ai une question qui me turlupine a propos des mots dit fort !!

Dans un document qu'elle est généralement le rapport entre les mots outils et les mots fort ????

**Graffito** · 14/10/2006, 09h09

Bonjour,

Dans un document qu'elle est généralement le rapport entre les mots outils et les mots fort ????

Les mots dits "outils" sont généralement éliminés en fonction d'une liste.
Les mots de poids faible se trouvent répartis dans beaucoup de documents.
Les mots forts se trouvent dans peu de documents et sont d'autant plus forts qu'ils sont répétés dans les documents ou ils apparaissent.

Par exemple dans la citation :
les mots outils seront "Dans, un, qu', elle, est, généralement, le, entre, les, et"
Les mots "rapport mots outils fort" seront forts ou faibles suivant le contenu des autres documents. Ils seront probablement faibles dans un corpus de documents linguistiques et plus forts dans le corpus de documents lié au dévellopement d'applications.

Algo de création de titre pour document

Algorithmes et structures de données

Discussions similaires

Partager

Partager