Franchement merci beaucoup. Tu m'a l'air vraiment calé sur le sujet. J'avoue que je n'ai pas tout tout compris mais j'ai retenu l'essentiel : faire baisser cette foutue complexité en définissant un niveau de granularité approprié. J'ai muri ça ce week-end et j'ai eu une idée.
Je vais essayer d'implémenter un petit algo qui va me générer un hashcode "maison" sur 30 ou 32 caractères grâce à tout les indices que tu ma donné.
- 2 caractères pour la 1er lettre
- 2 caractères pour la 2eme lettre
- J'avais pensé à la 3eme lettre mais l'idée de la distance par rapport à une chaine de référence me tente beaucoup. Je pourrais mettre les deux.
Grâce à la première lettre je réduit les groupes à environ 600 occurrences. Grâce à la deuxième lettre je divise chaque groupe par 26 soit 22 occurrences par groupe. Déjà un fort niveau de ressemblance. Ensuite soit la 3eme lettre soit la distance (ou les deux). J'aurais un niveau de similarité très important.
Mon maitre de stage me propose de rajouter le champs créer par cette algorithme dans la BDD. Ainsi, grâce à une requête et un "order by" je créer instantanément mes groupes pour alimenter mon tableau à 2 dimensions.
Penses-tu que c'est une bonne idée. Perso je crois que la création de se code peut être une opération lourde en BDD mais une fois réaliser, les requêtes seront très facilité.
Partager