GROUP BY multiples (Performance)

**Erakis** · 01/02/2010, 16h13

Bonjour à tous,

J'ai une question que je me pose souvent. J'aimerais déterminer de façon général, laquelle des deux requêtes suivante est la plus performante et la bonne façon de faire.

Toute d'abord, prenons la table suivante

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
 
DECLARE @TbEmployee TABLE(EmployeeID INT, EmpSubordinateID INT, EmpFirstName VARCHAR(40), EmpLastName VARCHAR(40), EmpPhoneNumber VARCHAR(40) )
INSERT INTO @TbEmployee
SELECT 1, NULL, 'e1', 'e1', '888-888-8888'
UNION ALL
SELECT 2, NULL, 'e2', 'e2', '888-888-8888'
UNION ALL
SELECT 3, 1, 'e3', 'e3', '888-888-8888'
UNION ALL
SELECT 4, 3, 'e4', 'e4', '888-888-8888'
UNION ALL
SELECT 5, 4, 'e5', 'e5', '888-888-8888'
UNION ALL
SELECT 6, 5, 'e6', 'e6', '888-888-8888'

Cette table contient des employés. Chaque employé est susceptible d'être le patron d'un autre. Enfin bref, imagons maintenant que je désire récupérer la liste de tous les employés ainsi que le nombre de subordinné (immédiat) étant associé à chacun d'eux.

Voilà la méthode #1 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
SELECT TbEmployee.EmployeeID, 
       TbEmployee.EmpSubordinateID, 
       TbEmployee.EmpFirstName, 
       TbEmployee.EmpLastName, 
       TbEmployee.EmpPhoneNumber,
       COUNT(TbSubordinate.EmployeeID)
FROM @TbEmployee AS TbEmployee
     LEFT JOIN @TbEmployee AS TbSubordinate
           ON TbEmployee.EmployeeID = TbSubordinate.EmpSubordinateID
GROUP BY TbEmployee.EmployeeID, 
         TbEmployee.EmpSubordinateID, 
         TbEmployee.EmpFirstName, 
         TbEmployee.EmpLastName, 
         TbEmployee.EmpPhoneNumber

Ici, j'utilise un GROUP BY qui d'après mes connaissance semble couteux vu le nombre d'argument qu'il possède.

Maintenant, voyons la méthode #2 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
SELECT TableEmp.EmpFirstName, 
       TableEmp.EmpLastName, 
       TableEmp.EmpPhoneNumber,
       TableTotal.NombreDeSub
FROM
      (
          SELECT TbEmployee.EmployeeID, 
                 TbEmployee.EmpSubordinateID, 
                 COUNT(TbSubordinate.EmployeeID) AS NombreDeSub
          FROM @TbEmployee AS TbEmployee
               LEFT JOIN @TbEmployee AS TbSubordinate
                   ON TbEmployee.EmployeeID = TbSubordinate.EmpSubordinateID
          GROUP BY TbEmployee.EmployeeID, 
                   TbEmployee.EmpSubordinateID 
       ) 
       AS TableTotal
            INNER JOIN @TbEmployee AS TableEmp
                  ON TableEmp.EmployeeID = TableTotal.EmployeeID

Cette dernière méthode commence par regrouper les données en fonction du ID de l'employé ensuite, elle joint le tout à la table Employee afin de récupérer les information supplémentaire.

Donc, selon-vous laquelle de ces deux méthodes est la plus performante ? Aussi, laquelle est la bonne façon de faire selon ce context.

Merci pour vos commentaires

**Waldar** · 01/02/2010, 16h26

La première méthode, qui est plus simple à relire, plus naturelle et qui fera un appel en moins à votre table.

Le group by qu'il concerne une ou dix colonnes, à la rigueur on s'en moque, ça vient en fin de traitement (après les jointures, les filtres, l'utilisation des index...).

**SQLpro** · 01/02/2010, 16h35

Le fait que vous employez une variables table empêche toute optimisation car une telle table n'a ni clef ni index. Le fait peut paraître surprenant, mais le simple fait que votre table soit en dur et non plus temps ou var, permet au moteur de paralléliser les accès et par là même d'obtenir des temps de réponse infiniment plus rapide !

A +

**Erakis** · 01/02/2010, 16h38

Envoyé par SQLpro

Le fait que vous employez une variables table empêche toute optimisation car une telle table n'a ni clef ni index. Le fait peut paraître surprenant, mais le simple fait que votre table soit en dur et non plus temps ou var, permet au moteur de paralléliser les accès et par là même d'obtenir des temps de réponse infiniment plus rapide !

A +

Je m'excuse, j'aurais dû vous dire que c'est qu'une exemple. J'ai utilisé une variable table afin que vous puissez faire un "copier/coller".

Évidemment, dans l'utilisation réelle, cela serait fait sur une table physique et doté d'index

**Erakis** · 01/02/2010, 16h42

Alors selon-vous la méthode #1 est la bonne façon de faire ?

Selon ce que j'ai vu dans le "Plan d'exécution", la méhode #1 coute plus cher en "Sorting".

Quant à la méthode #2, elle coute encore plus cher en "Hash Match Inner Join".

Mais je présume que si la table serait dôté d'un index sur le EmployeeID et SubordinateID, le match innerjoin serait plus faible ? Donc, la méthode #2 serait probablement plus performante ?

Qu'en pensez-vous ?

**Waldar** · 01/02/2010, 16h51

Il faut regarder le coût de la requête dans sa globalité.

Dans la première vous faites une jointure externe et un agrégat.
Dans la seconde vous faites une jointure externe, un agrégat, et à nouveau une jointure.

Je reste sur ma position, la première requête sera la plus performante.

GROUP BY multiples (Performance)

MS SQL Server

Discussions similaires

Partager

Partager