Bonjour,
Je suis en train de créer une base de données MySQL avec une table contenant des séquences d'ADN devant être uniques.
Les 2 écueils sont les suivants :
- un index unique doit contenir la longueur du segment de la chaine à comparer, or la longueur est variable et la comparaison doit se faire sur la totalité de la chaine
- une indexation sur des chaines aussi longues (>= 500 caractères) va être lourde pour la base.
Je cherche donc un algo capable de convertir une chaine de caractère en entier, sachant que la chaine est composée de 4 caractères (A, T, G et C) et que leur ordre est primordial (ATGC et AGTC ne doit pas être pondéré de la même manière).
Connaîtriez-vous un algo capable de faire ceci (soit directement utilisable (je développe en Perl) soit assez bien décrit pour être implémenté par quelqu'un qui n'a jamais fait d'algo (moi )) ?
En vous remerciant,
C. Tobini
Partager