[SSIS]Doublons sur des millions de ligne

**MeriConsult** · 15/12/2008, 13h36

Bonjour,

Depuis le temps que je travaille avec SSIS, je commence à désespérer.
et pour cause, je suis chargée de la construction d'une solution télécom et je dois traiter presque un milliards de lignes.
j'ai des fichiers de 5 millions de lignes que je charge dans 4 tables (une par trimestre) on va les appeler Tab_T1, Tab_T2, Tab_T3 ... , le hic est qu'il y'a des doublons dans chaque trimestre contenant près de 350 millions de lignes.

les performances de SSIS ne sont pas au RDV pour traiter ce genre de problémes.

j'ai testé plusieurs scénarios:

1. une contrainte de clé primaire sur les champs qui devraient être uniques:
très très très lent. il alloue beaucoup trop de place mémoire pour le faire.
2. une contrainte de clé unique avec Unique NonClustred, ça passe mieux mais ralenti au fur et à mesure du chargement et ça reste encore très lent.
3. Enlever les doublons via une requête sur des tranches de 5 jour ( pour diviser le bloc de volumétrie à traiter) ---> Trop trop trop lent.

SVP connaissez vous des astuces pour traiter les doublons sur une très grosse volumétrie via SSIS.

Merci d'avance de venir à mon se cours et bonne journée à tous.

**Sam3oul** · 15/12/2008, 14h59

Bonjour MeriConsult,

Je te propose de visionner le webcast "SQL Server intégration services 2005" que tu trouveras sur ce lien.

On y explique comment y détecter (et supprimer) les doublons.

Reste bien sûr à l'adapter à ton cas particulier.

Personnellement, j'ai pas encore testé cette méthode mais d'après ce qu'on voit ça marche

Voilà en espérant t'avoir aidé

**patriceharel** · 16/12/2008, 15h49

Bonjour,

D'où proviennent tes données? D'un SGBD? Si c'est le cas as tu essayé de mettre un distinct dans l'écriture de ta requête pour la sélection des sources?

**psychokwax** · 18/12/2008, 16h48

Personnellement, je pense que ce genre de problème ne doit pas forcément être traité par SSIS mais plutôt par du code SQL.

J'imagine qu'avec tel volume de données, le serveur qui fait tourner le SQL Server doit être balèze et donc, il faut tirer parti de cette puissance...

Dans ce cas, la solution suivante peut être implémentée (je l'ai déjà fait):

* insérer tes données brut dans une table de travail en utilisant un bulk insert (pas forcément en ssis de nouveau)
* calculer un hash ou checksum pour chaque ligne et l'insérer dans une colonne supplémentaire de ta table
* utiliser une autre colonne de type bit pour checker les duplicate et spécifier sa valeur via une requete sql de type

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
with cte as
(
     détection de duplicate grâce à un select group by ton hash having count(*) > 1
)
update ta_table set IsDuplicate = 1from cte where ...

* transférer les non duplicate dans ta table finale
* transférer une seule occurence des duplicate dans ta table finale via un select distinct

Bon maintenant, peut être que l'utilisation d'une table temporaire de travail peut te poser problème (vu les volumes)...

**MeriConsult** · 18/12/2008, 21h49

et pour répondre à vos questions,

voilà, mes données proviennent de fichiers bruts. et je passe actuellement par une procédure transact sql pour dédoublonner par tranche de chaque jour mais c'est trop long.

j'ai aussi une idée, insérer les données dans une table brut partitionnée à la semaine du mois et dédoublonner sur chaque partition --> ça reste à tester

et c'est quoi un hash ou checksum pour chaque ligne psychokwax.

Merci pour toutes vos réponses

**psychokwax** · 19/12/2008, 08h04

C'est une valeur calculée à partir de colonnes d'une ligne.
Elle est sensée être identique pour des lignes contenant les mêmes données.

[SSIS]Doublons sur des millions de ligne

SSIS

Discussions similaires

Partager

Partager