IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Dictionnaire - Java


Sujet :

Java

  1. #1
    Membre averti
    Profil pro
    Inscrit en
    Mars 2010
    Messages
    41
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2010
    Messages : 41
    Par défaut Dictionnaire - Java
    Bonjour toutes l'équipe,


    Je voudrais filtrer des données en fonction d'un dictionnaire. C'est à dire que je vais recevoir beaucoup de données et je ne garde que celles qui sont dans mon dictionnaire. Cependant, je ne vois pas comment réaliser mon dictionnaire. Est-ce qu'un fichier contenant tous les mots d'une certaine langue est-une bonne idée ? Y'a-t-il quelque chose prévu pour les dico ? Connaissez-vous des algorithmes performants pour ce genre d'application ?

    Merci d'avance

  2. #2
    Membre très actif
    Profil pro
    Inscrit en
    Février 2010
    Messages
    765
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 765
    Par défaut
    Bonjour,

    Pour aller vite il va te falloir macher le travail.

    Une fois que tu as ta liste de mot de ton dictionnaire il te faut les hacher et les ranger dans une structure (clé,valeur) comme une Hashtable. Car tu peux savoir directement si une clé est présente ou non dans ta structure. Ca va très vite.

    Quand tu reçois un document a analyser tu commences a hacher tes mots et tu recherches dans ta structure si le résultat du hachage est une clé.

  3. #3
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    La Hashtable t'oblige à créer un mot à partir du texte puis le soumettre sous forme de clé à la hashtable.
    Si tu cherches de la performance avec un grand texte et un grand dico, tu peux aussi utiliser un arbre n-aire équilibré pour stocker ton dictionnaire. Chaque noeud comportera une lettre. L'avantage est que tu parcours ton texte lettre par lettre en descendant dans ton arbre-dico. Tu n'es plus obligé de construire un mot complet.
    Mais tu as pleins d'autres possibilités. Tu dois nous en dire plus sur les données initiales ainsi que sur les perfs attendues.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  4. #4
    Membre averti
    Profil pro
    Inscrit en
    Mars 2010
    Messages
    41
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2010
    Messages : 41
    Par défaut
    Merci pour vos réponses.

    @dinobogan : En faite, c'est des mots clés que je reçois et j'aimerais garder uniquement ceux qui sont en anglais, par exemple. De cette manière, j'aurais que des mots ayant un sens qui sont gardés.

    Concernant le dictionnaire en lui-même, suis-je obligé d'enregistrer les mots dans un fichier ou alors est-ce qu'il y a une autre solution pour que le dictionnaire soit enregistré de manière permanante ? D'instinct, j'aurais enregistré les mots dans un fichier et au départ de l'application je chargerais mon dico dans une structure telle que hashtable.

    Merci les gars ;-)

  5. #5
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Conserver les mots dans un fichier est une idée.
    Par contre, pour le choix de la structure du dictionnaire, il te faut une estimation du nombre de mots dans le dictionnaire, une approximation de la taille d'un texte à analyser et une idée des performances attendues.
    Tu ne peux pas te lancer sur une Hashtable sans analyse de ces infos.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  6. #6
    Membre averti
    Profil pro
    Inscrit en
    Mars 2010
    Messages
    41
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2010
    Messages : 41
    Par défaut
    Pour être vraiment précis, j'ai une application qui se connecte sur certains sites grâce à leur API respective. Ces sites contiennent des photos ou vidéos, je récupère alors leurs métadonnées. Je récupère aussi tous les mots clés associés à ces photos/vidéos, de ces mots clés j'aimerais garder uniquement ceux d'une certaine langue. C'est pourquoi j'aimerais mettre en place un dictionnaire, comme ça je peux contrôler si les mots sont "OK" ou pas.

    @dinobogan : La taille du dico, je pense qu'en anglais par exemple c'est dans les 500 000 (est-ce beaucoup trop pour une hashtable ? ) tandis que mes mots clés viendront par groupe de 1000-2000 environ.

    Est-ce que mon approche est trop lourde pour ce que je veux faire ? Est-ce que Java met à disposition quelque chose pour les dictionnaires ?
    Si jamais, je suis ouvert à toute proposition d'amélioration.

    Merci d'avance

  7. #7
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Citation Envoyé par JaroBx Voir le message
    @dinobogan : La taille du dico, je pense qu'en anglais par exemple c'est dans les 500 000 (est-ce beaucoup trop pour une hashtable ? )
    Tout dépend de la taille moyenne d'un mot, mais ça devrait passer largement niveau mémoire.

    tandis que mes mots clés viendront par groupe de 1000-2000 environ.
    Est-ce que mon approche est trop lourde pour ce que je veux faire ? Est-ce que Java met à disposition quelque chose pour les dictionnaires ?
    Tu devrais commencer par faire un test avec une Hashmap, et 500 000 mots construit automatiquement (aaaaa, aaaab, aaaac, aaaad.....). Puis tu fais un test de recherche sur une phrase avec 2000 mots. Comme ça tu seras fixé sur les performances de ton algorithme et de ta machine.
    Si ce n'est pas concluant, alors revient ici pour nous dire ce qui ne va pas
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  8. #8
    Membre très actif
    Profil pro
    Inscrit en
    Février 2010
    Messages
    765
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 765
    Par défaut
    Citation Envoyé par dinobogan Voir le message
    La Hashtable t'oblige à créer un mot à partir du texte puis le soumettre sous forme de clé à la hashtable.
    Oui c'est ça l'idée, avoir la clé = hash du mot ça sera le plus rapide.

    Les arbre n-aire c'est a mon avis plus lent.

  9. #9
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Citation Envoyé par Jimmy_ Voir le message
    Les arbre n-aire c'est a mon avis plus lent.
    Non, pas du tout, cela dépend entièrement de la forme du texte en entrée. Si les mots sont déjà parsés, la Hashmap peut être une bonne idée.
    Par contre, si le texte est brut, l'arbre n-aire sera plus rapide car il ne sera pas nécessaire de construire préalablement les mots. Les caractères ne seront pas tous testés. Un mot absent de l'arbre sera détecté rapidement et tous les caractères suivant seront ignorés jusqu'au prochain caractère de séparation de mot.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  10. #10
    Rédacteur
    Avatar de benwit
    Profil pro
    dev
    Inscrit en
    Septembre 2004
    Messages
    1 676
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : dev

    Informations forums :
    Inscription : Septembre 2004
    Messages : 1 676
    Par défaut
    Il y a des choses très intéressantes à faire (et dites ci dessus) au niveau de Java mais il faut être conscient de l'empreinte mémoire que ça peut avoir.

    Personnellement, j'utiliserai une base de données où je stockerai mes mots et où je ferai ensuite des requêtes de sélection SQL. C'est bien adapté en terme de performance/volumétrie selon moi.

    SQL pro a écrit de bons petits papiers sur l'indexation textuelle et les soundex :
    http://sqlpro.developpez.com/cours/indextextuelle/
    http://sqlpro.developpez.com/cours/soundex/

    Certes, il faut utiliser un sgbd et cela peut être une contrainte.
    A toi de voir ...

Discussions similaires

  1. Existe-t-il une fonction gérant le dictionnaire en Java?
    Par sandrine_gabrielle dans le forum Débuter avec Java
    Réponses: 2
    Dernier message: 12/09/2011, 21h19
  2. Réalisation d'un dictionnaire de synonymes en Java
    Par menoulette dans le forum Débuter avec Java
    Réponses: 3
    Dernier message: 24/05/2011, 16h54
  3. Dictionnaire sous java
    Par havok77 dans le forum Langage
    Réponses: 1
    Dernier message: 12/01/2009, 14h44
  4. lib java pour générer un dictionnaire
    Par ghotique dans le forum Documents
    Réponses: 1
    Dernier message: 27/07/2007, 15h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo