Bonjour à tous,
Je souhaite comparer les enregistrements d'une table et voir s'il y a des doublons probables (que j'identifie a l'aide de fonctions faites maison).
Donc j'utilise 2 tInputMysql que je relis a un tMap dans lequel j'appel les fonctions que j'ai créé afin de comparer ces enregistrements.
J'aimerais que lorsque un doublon est trouver, l'itération sur ma table passe a l'enregistrement suivant. Je n'utilise pas de tUniqRow, mes fonctions faisants un certains nombre de transformations sur les données avant de les comparer.
Voici un exemple pour être plus clair :
id - nom1 - nom 2
1 - test1 - tst1
2 - test2 - tst2
3 - test3 - tst2
4 - test1 - tst1
5 - test1 - tst1
Voici un exemple de ce que je fais en ce moment dans mon tMap :
Comparaison 1 et 2 : faux;
Comparaison 1 et 3 : faux;
Comparaison 1 et 4 : vrai ==> enregistrement en base;
Comparaison 1 et 5 : vrai ==> enregistrement en base;
Comparaison 2 et 3 : vrai ==> enregistrement en base;
Comparaison 2 et 4 : faux;
Comparaison 2 et 5 : faux;
Comparaison 3 et 4 : faux;
Comparaison 3 et 5 : faux;
Comparaison 4 et 5 : vrai ==> enregistrement en base
J'aimerais obtenir le schéma suivant :
Comparaison 1 et 2 : faux;
Comparaison 1 et 3 : faux;
Comparaison 1 et 4 : vrai ==> enregistrement en base; (pas de comparaison entre 1 et 5)
Comparaison 2 et 3 : vrai ==> enregistrement en base; (pas de comparaison 2 et 4, ni 2 et 5)
Comparaison 3 et 4 : faux;
Comparaison 3 et 5 : faux;
Quelqu'un aurait-il une idée de solution pour résoudre ce probleme ?
Y a t il un autre composant a utiliser pour faire cela ?
Mon fichier est composé de plusieurs centaines de millier de lignes, et ma solution me pousse a traiter encore les données en sortie pour pouvoir garder uniquement le premier enregistrement par id (Donc un traitement extremement long).
Merci d'avance !
Partager