supprimer les lignes en double d'une table qui comporte plusieurs colonnes

**bename00** · 20/09/2011, 18h28

Bonjour,

J'ai une table qui comporte cinq champs, avec des enregistrements en double, je souhaiterai réaliser un select qui va extraire les données des cinq champs sans doublons.

Merci

Invité · 20/09/2011, 18h49

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
select champ1, champ2, champ3, champ4, champ5
from ma_table 
group by champ1, champ2, champ3, champ4, champ5

**bename00** · 20/09/2011, 19h13

Négatif

SELECT Matricule, Prénom, Nom, Grade, Division, CIN
FROM Table_IVP
GROUP BY Matricule, Prénom, Nom, Grade, Division, CIN

Ca m'affiche toujours des doublons, au fait je souhaiterai avoir les champs nom et prénom en distinct

Invité · 20/09/2011, 20h17

Envoyé par bename00

SELECT Matricule, Prénom, Nom, Grade, Division, CIN

Désolé mais pour moi ça fait SIX champs et vu votre demande succinct, comment j'aurais pu deviné les noms de colonnes ???

Envoyé par bename00

Ca m'affiche toujours des doublons, au fait je souhaiterai avoir les champs nom et prénom en distinct

Apprenez à exprimer votre besoin clairement.
En premier, c'était les lignes distincts sur tous les 5 champs et maintenant, c'est sur 2 champs des 6...
Jusqu'à présent la télépathie ne marche pas très bien.
D'ailleurs, si vous aviez observé les règles du foru ( http://club.developpez.com/regles/ )
vous auriez du nous fournir un jeu d'exemples et de résultat attendu ainsi que la structure de la table et ça éviterait ce jeu de ping pong / devinettes.

Essayez ceci mais je ne vous empêche pas d'essayer de comprendre un peu et d'adapter ou d'essayer des choses...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT Prénom, Nom
FROM Table_IVP
GROUP BY Prénom, Nom

**bename00** · 20/09/2011, 20h53

Négatif encore

Désolé, je reformule ma question :

J'ai une table qui comporte six champs :

Matricule Prénom Nom Grade Division CIN
1 Prénom1 Nom1 Grade1 Division1 CIN1
2 Prénom2 Nom2 Grade2 Division2 CIN2
3 Prénom3 Nom3 Grade3 Division3 CIN3
1 Prénom1 Nom1 Grade1 Division1 CIN1
1 Prénom1 Nom1 Grade1 Division1 CIN1
1 Prénom1 Nom1 Grade1 Division1 CIN1
2 Prénom2 Nom2 Grade2 Division2 CIN2

Je souhaiterai extraire les six champs avec des enregistrements non double de sorte à avoir le résultat ci-dessous :

Matricule Prénom Nom Grade Division CIN
1 Prénom1 Nom1 Grade1 Division1 CIN1
2 Prénom2 Nom2 Grade2 Division2 CIN2
3 Prénom3 Nom3 Grade3 Division3 CIN3

Votre première proposition du group by m'a donné un resultat avec doublons.
Votre deuxième proposition ne m'arrangera pas puisque j'ai besoin des six champs.

Vous dites : Essayez ceci mais je ne vous empêche pas d'essayer de comprendre un peu et d'adapter ou d'essayer des choses...

Belle expression
Ok, Merci

Invité · 20/09/2011, 22h24

ça doit ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
select Matricule , Prénom , Nom , Grade , Division , CIN
from FROM Table_IVP
group by Matricule , Prénom , Nom , Grade , Division , CIN

Envoyé par bename00

Vous dites : Essayez ceci mais je ne vous empêche pas d'essayer de comprendre un peu et d'adapter ou d'essayer des choses...
Belle expression
Ok, Merci

Effectivement, ce ne sont pas les tutoriels qui manquent concernant le SQL et les regroupements, rien que sur ce beau site...
Et c'est toujours bien de comprendre ce que l'on fait, non ?

**StringBuilder** · 21/09/2011, 11h03

Envoyé par 7gyY9w1ZY6ySRgPeaefZ

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
select champ1, champ2, champ3, champ4, champ5
from ma_table 
group by champ1, champ2, champ3, champ4, champ5

Outre la question mal posée, GROUP BY ne sert pas à filtrer les doublons, mais à retrouper les lignes.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
select distinct champ1, champ2, champ3, champ4, champ5
from ma_table

Est donc plus appropriée comme réponse à la question initiale.

Donc au final :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
SELECT DISTINCT Matricule , Prénom , Nom , Grade , Division , CIN
FROM FROM Table_IVP

Quite à utiliser GROUP BY pour n'importe quoi, pourquoi pas utiliser UNION aussi, qui fait un DISTINCT implicite...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
SELECT Matricule , Prénom , Nom , Grade , Division , CIN
FROM FROM Table_IVP
union
SELECT Matricule , Prénom , Nom , Grade , Division , CIN
FROM FROM Table_IVP

Invité · 21/09/2011, 15h37

Excusez-moi, StringBuilder, je suis sûrement bien ignorant mais outre la différence de syntaxe entre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT champ1, champ2, champ3, champ4, champ5
FROM ma_table 
GROUP BY champ1, champ2, champ3, champ4, champ5

et

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
SELECT DISTINCT champ1, champ2, champ3, champ4, champ5
FROM ma_table

C'est quoi la différence fondamentale ?
D'autant plus que les temps et les plans d’exécution sont identiques...
Pour moi, c'est une façon plus propre et plus explicite qu'un distinct.

En outre, je peux aussi fournir bien des exemples de SQL tarabiscotés mais il me semble que ma requête répond correctement à la demande, je ne comprends pas vraiment votre point.

**Glouferu** · 21/09/2011, 16h59

Bonjour,

Si c'est un problème de qualité de données non detecté/bloqué par des contraintes d'intégrités, vous pouvez nettoyer vos data simplement !

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
SELECT Ton_champs, COUNT(*)
FROM Ta_Table
GROUP BY Ton_champs
HAVING COUNT(*)>1

Vous avez alors toutes les lignes en doublons, vous pouvez les purger et réinsérer les bonnes données.

Maintenant, moi j'ai fais un truc tout con :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
CREATE TABLE [dbo].[TABLE_TEST](
	[MATRICULE] [int] NULL,
	[PRENOM] [varchar](50) NULL,
	[NOM] [varchar](50) NULL,
	[GRADE] [varchar](50) NULL,
	[DIVISION] [varchar](50) NULL,
	[CIN] [varchar](50) NULL
) ON [PRIMARY]

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (1, 'Prénom1', 'Nom1', 'Grade1', 'Division1', 'CIN1');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (2, 'Prénom2', 'Nom2', 'Grade2', 'Division2', 'CIN2');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (3, 'Prénom3', 'Nom3', 'Grade3', 'Division3', 'CIN3');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (1, 'Prénom1', 'Nom1', 'Grade1', 'Division1', 'CIN1');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (1, 'Prénom1', 'Nom1', 'Grade1', 'Division1', 'CIN1');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (1, 'Prénom1', 'Nom1', 'Grade1', 'Division1', 'CIN1');
INSERT INTO TABLE_TEST ([MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]) VALUES (2, 'Prénom2', 'Nom2', 'Grade2', 'Division2', 'CIN2');

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
SELECT *
FROM TABLE_TEST
WHERE MATRICULE IN (SELECT DISTINCT(MATRICULE) FROM TABLE_TEST)
GROUP BY [MATRICULE],[PRENOM], [NOM], [GRADE], [DIVISION], [CIN]

Voila

**bename00** · 21/09/2011, 19h12

Bonjour,

Problème toujours pas résolu

Les trois réponses affichent ceci :

7gyY9w1ZY6ySRgPeaefZ :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT Matricule , Prénom , Nom , Grade , Division , CIN
FROM  Table_IVP
GROUP BY Matricule , Prénom , Nom , Grade , Division , CIN

StringBuilder :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
SELECT DISTINCT Matricule , Prénom , Nom , Grade , Division , CIN
FROM Table_IVP

Glouferu :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
SELECT *
FROM Table_IVP
WHERE MATRICULE IN (SELECT DISTINCT(MATRICULE) FROM Table_IVP)
GROUP BY [MATRICULE],[PRéNOM], [NOM], [GRADE], [DIVISION], [CIN]

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Matricule , Prénom , Nom , Grade , Division , CIN

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
1111	Prénom1	Nom1	1	1	CIN1
1112	Prénom1	Nom1	1	1	CIN2
1113	Prénom3	Nom3	1	1	CIN3
1111	Prénom1	Nom1	2	1	CIN1
1111	Prénom1	Nom1	3	1	CIN1

Au fait, il manque un détail que je n'avais pas cité, et je m'en excuse profondément, c'est que les doublons d'enregistrements ne sont pas très identiques au niveau du champ grade.

Je souhaiterai avoir la liste des six champs avec un distinct sur les champs nom et le prénom seulement.
Si vous me dites, lequel des enregistrements en double je veux au final, je dirai ; n'importe lequel ...

Mes remerciements

Invité · 21/09/2011, 19h26

Envoyé par bename00

Au fait, il manque un détail que je n'avais pas cité, et je m'en excuse profondément, c'est que les doublons d'enregistrements ne sont pas très identiques au niveau du champ grade.

Il faudrait définir la notion "pas très identiques" car le SQL ne contient pas d'opérateur de comparaison "not quite the same"...

**Glouferu** · 21/09/2011, 21h25

Oui, si la valeur Grade est différente ... les lignes ne sont pas en doublons

Bon pour ma part, je pense que le grade le plus élevé est celui en rigueur faute de date !

Voici ce que ça donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
SELECT * FROM TABLE_TEST AS T,
	(SELECT MATRICULE, max(GRADE) as grade
	FROM TABLE_TEST
	GROUP BY MATRICULE) A
WHERE A.MATRICULE = T.MATRICULE
AND A.GRADE=T.GRADE

P.S.: Avec les 2 3 exemples de requêtes SQL que j'ai pu vous donner sur ce topic, vous allez pouvoir répondre a 90% des besoins en matières de sélection. Donc essayez de bien comprendre la logique et tout deviendra plus simple pour vous

**bename00** · 22/09/2011, 13h53

Problème résolu

Glouferu, votre solution est bien correct, juste un petit détail ; vu qu'un max grade d'une personne risque d'être en double aussi, le max ne fonctionnera pas, j'ai pensé alors a créer un id unique pour tout les enregistrement que j'ai, et je récupère le max ou le min id d'une personne puisque c'est un enregistrement au hasard qui m'intéresse.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
SELECT  Mat , Prénom , Nom , Grade , Division , CIN
FROM IVP AS T ,
			(SELECT   MAX(id) AS id
			FROM IVP
			GROUP BY  Prénom, Nom ) A
WHERE   T.ID = A.ID

Je vous remercie énormément.

Salutations

**StringBuilder** · 22/09/2011, 14h55

Envoyé par 7gyY9w1ZY6ySRgPeaefZ

Excusez-moi, StringBuilder, je suis sûrement bien ignorant mais outre la différence de syntaxe entre

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT champ1, champ2, champ3, champ4, champ5
FROM ma_table 
GROUP BY champ1, champ2, champ3, champ4, champ5

et

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
SELECT DISTINCT champ1, champ2, champ3, champ4, champ5
FROM ma_table

C'est quoi la différence fondamentale ?
D'autant plus que les temps et les plans d’exécution sont identiques...

La différence fondamentale, c'est que "distinct" retourne toutes les valeurs distinctes des tuples retournés par le select.

Alors que group by effectue un regroupement des lignes en vue d'une utilisation conjointe avec une fonction de regroupement (min, max, etc.)
Le fait que GROUP BY faisse un distinct est un effet de bord uniquement, et il ne doit jamais être utilisé pour ça. C'est comme les gens qui croient que le GROUP BY et le ORDER BY sont synonymes : le ORDER BY est un effet de bord du GROUP BY et du DISTINCT. Cependant, ce n'est pas systématique (lors d'une jointure noramment, l'ordre n'est pas toujours assuré) !

Il s'agit donc d'une différence de sémantique.

Envoyé par 7gyY9w1ZY6ySRgPeaefZ

Pour moi, c'est une façon plus propre et plus explicite qu'un distinct.

Non, justement, puisque sémantiquement, il faut utiliser DISTINCT pour avoir des valeurs distinctes et GROUP BY pour avoir des valeurs groupées

Le fait que le plan d'exécution et le résultat soit identique n'est qu'un "coup de chance" parceque pour un SGBD donné, dans une situation donnée, il va faire la même chose. Cela n'est en rien assuré.

**Glouferu** · 22/09/2011, 16h11

Envoyé par bename00

Problème résolu

Glouferu, votre solution est bien correct, juste un petit détail ; vu qu'un max grade d'une personne risque d'être en double aussi, le max ne fonctionnera pas, j'ai pensé alors a créer un id unique pour tout les enregistrement que j'ai, et je récupère le max ou le min id d'une personne puisque c'est un enregistrement au hasard qui m'intéresse.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
SELECT  Mat , Prénom , Nom , Grade , Division , CIN
FROM IVP AS T ,
			(SELECT   MAX(id) AS id
			FROM IVP
			GROUP BY  Prénom, Nom ) A
WHERE   T.ID = A.ID