Bonjour,
Depuis le temps que je travaille avec SSIS, je commence à désespérer.
et pour cause, je suis chargée de la construction d'une solution télécom et je dois traiter presque un milliards de lignes.
j'ai des fichiers de 5 millions de lignes que je charge dans 4 tables (une par trimestre) on va les appeler Tab_T1, Tab_T2, Tab_T3 ... , le hic est qu'il y'a des doublons dans chaque trimestre contenant près de 350 millions de lignes.
les performances de SSIS ne sont pas au RDV pour traiter ce genre de problémes.
j'ai testé plusieurs scénarios:
1. une contrainte de clé primaire sur les champs qui devraient être uniques:
très très très lent. il alloue beaucoup trop de place mémoire pour le faire.
2. une contrainte de clé unique avec Unique NonClustred, ça passe mieux mais ralenti au fur et à mesure du chargement et ça reste encore très lent.
3. Enlever les doublons via une requête sur des tranches de 5 jour ( pour diviser le bloc de volumétrie à traiter) ---> Trop trop trop lent.
SVP connaissez vous des astuces pour traiter les doublons sur une très grosse volumétrie via SSIS.
Merci d'avance de venir à mon se cours et bonne journée à tous.
Partager