IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Administration SQL Server Discussion :

Colonne de faible cardinalité


Sujet :

Administration SQL Server

  1. #1
    Membre du Club
    Homme Profil pro
    test
    Inscrit en
    Octobre 2016
    Messages
    135
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 41
    Localisation : Tunisie

    Informations professionnelles :
    Activité : test
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2016
    Messages : 135
    Points : 49
    Points
    49
    Par défaut Colonne de faible cardinalité
    hello ,

    j'ai une question sur vos recommandation pour l'indexation des colonnes a faible cardinalité

    j'ai une table avec un colonne de type int qui reçoit seulement 3 valeur connue soit 0,1,2

    Est-ce que l'indexation de cette colonne est pertinente?

    merci pour vos retour d'expérience

  2. #2
    Expert éminent sénior
    Homme Profil pro
    Responsable Données
    Inscrit en
    Janvier 2009
    Messages
    5 284
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Responsable Données

    Informations forums :
    Inscription : Janvier 2009
    Messages : 5 284
    Points : 12 983
    Points
    12 983
    Par défaut
    Bonjour,
    En fait le nombre de valeurs possibles n'est qu'un des éléments à prendre en compte.
    Quelle est la "distribution" de ces valeurs ? Est-ce qu'il y a (à peu près) autant de lignes pour chaque valeur, ou est-ce que l'une d'entre elles est plus présente que les deux autres ?
    Est-ce que des requêtes sont filtrées sur cette colonne ?
    Est-ce qu'il y a beaucoup de lignes dans cette table ?

    Si par exemple la table contient beaucoup de lignes, que la valeur 3 est très peu présente, et qu'elle est la plus recherchée, alors un index à tout son sens.
    Autre exemple, toujours avec beaucoup de lignes, une valeur 3 toujours très "recherchée", mais qu'elle est dans la grande majorité des lignes, un index ne servira pas à grand chose.

    Cela étant dit, j'ai pour habitude d'indexer systématiquement toutes les clés étrangères, pour "faciliter" les contrôles des contraintes d'intégrité. Mais peut-être que ce n'est pas forcément une bonne idée.

    Tatayo.

  3. #3
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 377
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 377
    Points : 39 852
    Points
    39 852
    Billets dans le blog
    9
    Par défaut
    Bonjour

    Je ne suis pas d'accord avec ce qui précède : s'il n'y a que 3 valeurs pour une colonne, l'index n'a aucun intérêt sur le plan des recherches quelle que soit la distribution des valeurs. En général, si un index correspond à plus de 10% de l'effectif, il n'est pas suffisamment discriminant pour être éligible comme chemin d'accès, l'optimiseur considèrera qu'il est plus rentable de parcourir séquentiellement les data plutôt que de faire des allers retours entre data et index.
    Mais, il peut avoir un intérêt en tant qu'index couvrant, ce qui est tout autre chose.

    Indexer systématiquement les clefs étrangères n'est pas une bonne pratique, il ne faut créer les index que là où ils sont nécessaires.
    Exemple : une table des personnes pourra avoir pour FK l'identifiant du pays de naissance et l'identifiant du pays de domiciliation fiscale. Pour autant, on ne fait pas forcément des recherches sur ces critères, et si l'on en fait, encore faut il s'assurer que ces valeurs sont discriminantes. Là encore, si seulement quelques valeurs sont utilisées, créer des index plombera les perfs, l'espace disque et les servitudes (réorgs, build, sauvegardes, restaurations...).

  4. #4
    Rédacteur

    Avatar de SQLpro
    Homme Profil pro
    Expert bases de données / SQL / MS SQL Server / Postgresql
    Inscrit en
    Mai 2002
    Messages
    21 920
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Expert bases de données / SQL / MS SQL Server / Postgresql
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2002
    Messages : 21 920
    Points : 51 712
    Points
    51 712
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par escartefigue Voir le message
    Bonjour

    Je ne suis pas d'accord avec ce qui précède : s'il n'y a que 3 valeurs pour une colonne, l'index n'a aucun intérêt sur le plan des recherches quelle que soit la distribution des valeurs. En général, si un index correspond à plus de 10% de l'effectif, il n'est pas suffisamment discriminant pour être éligible comme chemin d'accès, l'optimiseur considèrera qu'il est plus rentable de parcourir séquentiellement les data plutôt que de faire des allers retours entre data et index.
    Pas d'accord... Tout dépend de la distribution des valeurs et d'une éventuelle clause WHERE.
    Un index étant plus petit qu'une table, un scan d'index sera plus rapide que la lecture de la table et occupera moins de place en cache quelque soit les valeurs cherchées.
    Si la distribution est très erratique, cela vaut le coup de créer des index filtrés sur les valeurs faiblement présentes. Un petit exemple est un index sur le groupe sanguin. Les groupes O+ et A+ étant représenté à 10% et plus, les ignorés au profit de tous les autres...

    A +

  5. #5
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 377
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 377
    Points : 39 852
    Points
    39 852
    Billets dans le blog
    9
    Par défaut
    Le fonctionnement habituel est que les valeurs extrêmes des statistiques (la plus petite et la plus grande) sont éliminées par l'optimiseur car considérées comme atypiques. L'optimiseur se concentre sur le "gras" de la courbe de Gauss
    À moins que ce principe soit inhibé quand le nombre total de valeurs est très faible, dans ce cas d'espèce avec 3 valeurs, il n'en reste plus qu'une, donc tout index est sans le moindre intérêt.

  6. #6
    Modérateur
    Avatar de Waldar
    Homme Profil pro
    Sr. Specialist Solutions Architect @Databricks
    Inscrit en
    Septembre 2008
    Messages
    8 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Sr. Specialist Solutions Architect @Databricks
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2008
    Messages : 8 453
    Points : 18 394
    Points
    18 394
    Par défaut
    Indexer les valeurs trop présentes n'a en effet aucun intérêt, d'où la proposition de SQLPro d'utiliser un index filtré pour n'indexer que ces valeurs, ce qui est tout à fait valide :
    1. garantie de n'utiliser l'index que pour ces valeurs faiblement représentées
    2. index très léger


    Je ne suis pas sûr pour SQL-Server, mais avec d'autres bases de données les valeurs atypiques sont au contraire parfaitement identifiées par l'optimiseur dans les histogrammes.

  7. #7
    Rédacteur

    Avatar de SQLpro
    Homme Profil pro
    Expert bases de données / SQL / MS SQL Server / Postgresql
    Inscrit en
    Mai 2002
    Messages
    21 920
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Expert bases de données / SQL / MS SQL Server / Postgresql
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2002
    Messages : 21 920
    Points : 51 712
    Points
    51 712
    Billets dans le blog
    6
    Par défaut
    Citation Envoyé par escartefigue Voir le message
    Le fonctionnement habituel est que les valeurs extrêmes des statistiques (la plus petite et la plus grande) sont éliminées par l'optimiseur car considérées comme atypiques.....
    NON... Aucun valeur n'est éliminés des statistiques... Toutes les valeurs sont considérées. Ce qui permet justement de faire un plan en utilisant ou pas l'index en fonction de la cardinalité estimé !

    En ce qui concerne les valeurs les moins fréquentes, ce sont justement les plus utilisées par les optimiseurs...

    A +

Discussions similaires

  1. Réponses: 7
    Dernier message: 14/10/2009, 16h45
  2. Cryptage de colonnes sous Oracle
    Par Julian Roblin dans le forum SQL
    Réponses: 9
    Dernier message: 28/11/2006, 19h24
  3. conception - clef etrangère -cardinalité forte/faible
    Par sundjata dans le forum Décisions SGBD
    Réponses: 1
    Dernier message: 16/11/2005, 15h57
  4. [VB6] [Interface] ComboBox à plusieurs colonnes
    Par mtl dans le forum VB 6 et antérieur
    Réponses: 7
    Dernier message: 30/03/2004, 18h35
  5. StringGrid et colonnes
    Par Delph dans le forum Composants VCL
    Réponses: 2
    Dernier message: 02/08/2002, 12h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo