Bonjour,
J'ai de nouveau besoin de votre aide. Il se peut que ce problème est déjà plus ou moins été traité: je viens de commencer mes recherches sur internet et je vais continuer en parallèle de ce topic.
Je vous explique la situation:
- j'ai une table sas qui regroupe environ 4 millions de lignes et une seule colonne
- chaque cellule est composée d'un mot ou d'une expression
- le but est de regrouper ces termes pour obtenir les fréquences d'apparition sauf qu'il y a des erreurs de saisie ou bien des détails qui ne servent à rien
exemple - erreur de saisie:
bronchite à la ligne 1, bronchit à la ligne 2, bronchitte à la ligne 3
=> regrouper ces termes en un terme final bronchite
exemple - détails qui ne servent à rien:
algie de la main, algie du pied
=> regrouper ces termes en un terme final algie
existe t il un moyen d'analyser le pourcentage de caractères communs entre les termes en tenant compte de l'ordre de ces caractères ?
(sous sas ou excel ou access, ce que vous voulez tant que c'est pas trop compliqué à implémenter )
comme j'ai dit plus haut, il y a 4 millions de lignes donc plus le programme sera automatique, mieux ce sera (surtout que j'ai au total 10 tables du meme genre donc 40 millions de lignes).
je parle ici de termes médicaux mais j'ai aussi le problème pour d'autres types.
est il possible de réaliser cela
- en comparant les 4 millions de termes entre eux ?
- en comparant les 4 millions de termes à une liste prédéfinie de termes finaux (je ne sais pas encore sous quelle forme serait cette liste car je ne sais meme pas s'il est possible d'en obtenir une...) ?
merci d'avance pour vos conseils.
PS: j'ai lu le SUGI 26 page 196 où il parle de codage avec une liste prédéfinie. ça utilise le module SAS/AF. Comment savoir si j'ai ce module dans mon SAS ?
PS: j'ai vu sur certains topics se rapprochant du mien qu'il y a la proc pour faire des clusters. est ce que ça répondrait à mon problème ?
Partager