Bonjour à tous je voudrais savoir s’il existe un algo ou une technique pour comparer des milliers de documents sans indexer deux documents identique.
L'application que je développe en ce moment index de énormément de texte, et mon problème est qu'il arrive assez souvent d'indexer deux fois le même texte. Donc je cherche une méthode pour garder une signature de chaque document indexé pour la comparer avec les documents qui entre dans le système et si deux signature sont identique ou fortement similaire je n'index pas le document.
Merci
Partager