Jointure, jointure, vous avez dit jointure ? [Débat]

**fsmrel** · 18/02/2009, 04h02

Bonsoir,

Envoyé par pacmann

la définition de l'opérateur de jointure matérialise une notion intuitive de lien. La notion définie / le concept créé a bien plus d'importance que la définition en elle-même

Je ne saisis pas tout à fait le sens de votre remarque, mais j'ai l'impression que vous reprochez quelque chose à Ted Codd (qui, ne l'oublions pas, avait à convaincre des informaticiens et les comptables d’IBM plutôt que des mathématiciens). Peu importe. La notion intuitive de lien c’est bien, mais encore faut-il avoir les moyens d’identifier les « bons » liens. Par exemple, je vous propose l’image suivante, extraite de l’article de Date, An analysis of Codd's contribution to the Great Debate, illustrant deux types de liens entre tables :

A gauche, dans le style coddien, le lien entre les tables DEPT et EMP n’est pas matérialisé (la jointure naturelle DEPT JOIN EMP fait office), alors qu’à droite, le lien matérialisé DEPTEMP cache en fait un jeu de pointeurs, permettant de naviguer de DEPT vers EMP et inversement. Sur la base de la définition rigoureuse du Modèle Relationnel de Données, (y-compris des opérateurs que nous avons évoqués), il a quand même fallu un bon moment pour que les partisans de la solution de droite avouent reconnaître la supériorité incontestable et écrasante de l’autre, dont la force tient pour beaucoup à sa simplicité. Ted Codd avait fait preuve de beaucoup de discernement, en réalité de génie, pour se contenter de l’image de gauche, qui traduit la définition de son principe de l’information (Information Principle) :

« All information in the database must be cast explicitly in terms of values in relations and no other way. »

En cela, on peut reconnaître que le concept créé a plus d’importance que la définition elle-même, mais, comme vous le faites observer en citant les Principia, faire abstraction de celle-ci est pénalisant.

A ce sujet, permettez-moi une incidente (j'aime bien les incidentes). Comme je le raconte parfois ici, un « Grand débat » a eu lieu à Ann Arbor, en 1974, en réalité une joute décisive qui opposa Ted Codd à Charles Bachman (je n’ai pas dit Pachman...), champion des bases de données dites réseau (ou CODASYL). A l’occasion de son entraînement de préparation, Codd prit le soin, a posteriori, de fournir une définition pour le modèle réseau, chose qui paradoxalement n’avait jamais été faite ! bien que les bases de données y adhérant fussent très en vogue. Codd put ainsi mettre au jour les faiblesses de ce modèle. La tactique fut payante et dès le 1er round il envoya son rival mordre la poussière. Bachman n’était pourtant pas le premier venu, et avait même obtenu la Turing Award l’année précédente. Dix ans plus tard, arriva DB2, le premier SGBD relationnel capable non seulement de rivaliser, mais de littéralement surclasser (sur tous les plans) les SGBD réseau, et en très peu d’années ceux-ci furent balayés, au point que Bachman dut se résoudre à concevoir puis vendre (la feau des pesses) un outil permettant de migrer vers le relationnel. De la même façon, les promoteurs de Merise se mirent à décrire la production d’un modèle logique non plus basé exclusivement sur l’approche réseau, mais sur le Modèle Relationnel de Données (auquel ils n’ont du reste pas compris grand chose...) Ensuite, à grands renforts de trompettes, on nous annonça que les SGBD OO allaient supplanter les SGBD R. Certes, l’approche OO a beaucoup apporté avec le typage fort des données et l’héritage, mais elle a aussi pris un risque en se dispensant du principe de l'information énoncé plus haut, et en utilisant le mécanisme des pointeurs, habillés en identificateurs d’objets. Anyway, je ne sache pas que les SGBD R aient connu le sort qui leur était promis, celui des SGBD de type réseau (que nous sommes peu nombreux à savoir encore programmer, soit-dit en passant).

Envoyé par pacmann

Je ne sais pas exactement ce qu'est ou n'est pas une primitive (et donc en quoi Codd ne considérait pas la jointure comme une primitive !)

Il es vrai que le terme est ambigu. Par exemple, pour les théoriciens de Merise, une primitive est une action élémentaire :
Accès à une ligne d’une table par sa clé. Ajout d’une ligne, etc. Le but de la manœuvre est de calculer le coût des accès, disons en nombre d’entrées/sorties pour faire court. Cela avait un sens avec un SGBD réseau, mais ne signifie plus rien avec un SGBD R, car l’optimiseur a ses algorithmes et heuristiques qui invalident la plupart de ces calculs laborieux : en tant que vieux routier de l’administration des bases de données, je sais de quoi je parle.

Dans le contexte du Modèle relationnel, primitive est un raccourci pour opération primitive, c'est-à-dire une opération qu'on ne définit pas au moyen d'autres opérations. Inversement, certaines opérations ne sont pas primitives parce qu’elles peuvent être définies à partir d’autres opérations. Ainsi, l'intersection est à considérer comme une opération qui n'est pas primitive, car a INTERSECT b revient à a MINUS (a MINUS b), ou b MINUS (b MINUS a).

Je rappelle au passage quelques définitions telles qu’on les trouve chez Date (An Introduction to Database Systems, 8th edition).

Produit cartésien (relationnel) :

a TIMES b

Le produit cartésien relationnel de deux relations a et b, a TIMES b, où a et b n’ont aucun attribut en commun, est une relation dont l’en-tête est l’union (au sens ensembliste) des en-têtes de a et de b, et dont le corps est constitué de l’ensemble des tuples t tel que t est l’union (au sens ensembliste) d’un tuple appartenant à a et d’un tuple appartenant à b. Clairement, le produit cartésien relationnel est une extension du produit cartésien de la théorie des ensembles (notamment, TIMES est commutatif et associatif).
L’opérateur TIMES peut être considéré ici comme primitif.

Restriction :

a WHERE X θ Y

La θ-restriction (restriction pour abréger) d’une relation a sur les attributs X et Y, a WHERE X θ Y est une relation ayant le même en-tête que la relation a et dont le corps est constitué de tous les tuples de a pour lesquels a WHERE X θ Y prend la valeur VRAI. L’opérateur WHERE peut être considéré ici comme primitif.

L’opération de θ-jointure revient conceptuellement à un produit cartésien (relationnel) de deux relations, suivi d’une θ-restriction :

(a TIMES b) WHERE X θ Y

Dans ces conditions, l’opération de θ-jointure n’est donc pas ici une opération primitive. Par voie de conséquence, il en va de même pour l’opération de jointure naturelle.

Maintenant, on peut adopter une attitude différente et considérer la jointure naturelle comme une opération primitive, ce que fait Chris Date, qui la note ainsi :

a JOIN b

Vous observerez qu'on ne précise pas quels attributs participent à l’opération : ce sont ceux qui, dans les relations a et b ont même nom (et sont évidemment du même type).

Si les deux relations n’ont aucun attribut en commun, alors cette opération revient à un produit cartésien (on peut donc se passer de l’opérateur TIMES).

De même, si les deux relations sont du même type, c'est-à-dire si tous leurs attributs participent à l’opération, alors cette opération revient à une intersection (on peut donc se passer de l'opérateur INTERSECT, mais pour le confort de l'utilisateur, il est préférable de n'en rien faire...)

Etc.

**SQLpro** · 13/05/2015, 15h07

Envoyé par fsmrel

A gauche, dans le style coddien, le lien entre les tables DEPT et EMP n’est pas matérialisé (la jointure naturelle DEPT JOIN EMP fait office), alors qu’à droite, le lien matérialisé DEPTEMP cache en fait un jeu de pointeurs, permettant de naviguer de DEPT vers EMP et inversement. Sur la base de la définition rigoureuse du Modèle Relationnel de Données, (y-compris des opérateurs que nous avons évoqués), il a quand même fallu un bon moment pour que les partisans de la solution de droite avouent reconnaître la supériorité incontestable et écrasante de l’autre, dont la force tient pour beaucoup à sa simplicité. Ted Codd avait fait preuve de beaucoup de discernement, en réalité de génie, pour se contenter de l’image de gauche, qui traduit la définition de son principe de l’information (Information Principle) :

« All information in the database must be cast explicitly in terms of values in relations and no other way. »

Pour aller dans ce sens, la norme SQL a évolué dans sa version SQL:1999 en proposant une abomination qui est le rajout du type REF... qui fournit un identifiant interne, masqué, un peu à la manière de pointeurs... Peu d'éditeurs de SGBDR ont implémenté ce type, et je ne connais pas de base de données en production dans lequel cela existe ! (et heureusement)

A +

**CinePhil** · 13/05/2015, 15h12

Oh le réveillage de post, Fred !

Ce que tu décris ne ressemble t-il pas au ROWID de Oracle ?
Ou bien je n'ai rien compris à ton message ?

**fsmrel** · 13/05/2015, 18h05

Bonjour les enfants,

Pour un réveillage, c’est un réveillage ... Ben Philippe, tu tombes bien, puis-je te demander un service ? En revoyant cette discussion, je constate que j’avais fourni à l’époque (vous étiez bien jeunes tous les deux ^^) des images qui depuis ont disparu... Je trolle, mais dans ta grande bonté, pourrais-tu changer les liens (REF

) ?

1re image : post #5, sous le texte « Le temps d’exécution est d’environ une seconde et le plan d’exécution est le suivant : »

Remplacer [img]http://img247.imageshack.us/img247/3298/sqlserverexplainfromjoije1.jpg[/im*] par :

2e image : post #5, sous le texte « Alors le plan d’exécution est le même (ainsi donc que le temps d’exécution) : »

Remplacer [img]http://img186.imageshack.us/img186/3488/sqlserverexplainfromwhepw6.jpg[/im*] par

3e image : post #24, remplacer [img]http://img80.imageshack.us/img80/1671/tweedleeh4.jpg[/im*] par

Je te remercie !

**CinePhil** · 13/05/2015, 18h53

C'est fait.

**fsmrel** · 13/05/2015, 19h32

Merci Philippe !

**SQLpro** · 18/05/2015, 18h11

Envoyé par CinePhil

Oh le réveillage de post, Fred !

Ce que tu décris ne ressemble t-il pas au ROWID de Oracle ?
Ou bien je n'ai rien compris à ton message ?

Hélas oui !!!! A chaque fois que je voit des Oracliens, des Oracleurs ou des Oraclettes qui me sortent cette abomination j'ai envie de les tuer... Un peut à la Raoul Volfoni !

A +

**fsmrel** · 18/05/2015, 18h33

Attention Fred ! les or* vont t'envoyer faire un séjour chez Dugoineau...

**berceker united** · 09/06/2015, 17h29

Bonjour,

Je prend aussi la pelle pour détérer se post mais c'est cette discution là que je recherche pour avoir une réponse. J'ai vu sur developpez.net un sujet sur les jointures externes et SQLPro (Désolé je balance) disait en résumé; de faire attention aux résultat envoyé via des jointures externes selon le SGBD, en effet ça peut avoir des résultats différent. Mais je retrouve plus son intervention.
Ai-je rêvé ou non ?

**SQLpro** · 09/06/2015, 19h23

Envoyé par berceker united

J'ai vu sur developpez.net un sujet sur les jointures externes et SQLPro (Désolé je balance) disait en résumé; de faire attention aux résultat envoyé via des jointures externes selon le SGBD, en effet ça peut avoir des résultats différent. Mais je retrouve plus son intervention.
Ai-je rêvé ou non ?

Non tu n'as pas rêvé !!!

En effet, avant que les jointures externes n'aient été normalisées, chacun les faisaient à sa sauce et entre éditeurs cela n'était pas forcément compatible.

Exemple : ORACLE avec (+)= et SQL Server avec *=

Hé bien ceci ne donne pas les mêmes résultats....

A +

**berceker united** · 09/06/2015, 22h54

Et bien en fait, je me suis souvenu que c'était moi qui avais posé la question et j'ai retrouvé ta réponse expliquant que les jointures externes coté Sybase étaient mathématiquement fausses.
http://www.developpez.net/forums/d10...e/#post6723145
Et tu as posé un excellent lien sur ce sujet et c'est ça que je cherchais : http://www.developpez.net/forums/d10...e/#post6723145

Merci encore

Jointure, jointure, vous avez dit jointure ? [Débat]

Langage SQL

Discussions similaires

Partager

Partager