Bonjour à toutes et à tous,
Je dispose d'un ensemble de données qui forment une distribution de type décalé droite (right skewed).
Je souhaite, pour chaque donnée de cette distribution, établir la distance qui la sépare du centre de la distribution auquelle elle appartient.
Autrement dit: la distance qui sépare la donnée ni du centre de la distribution formée par toutes les ni.
J'ai dans un premier temps utilisé la distance euclidienne, mais dans un but d'identification d'outliers (des données lointaines au centre), je me demande si je ne devrais pas utiliser Mahanabolis? Est-ce que ca a un sens (ca ne revient pas à faire la même chose?)
De plus Mahanabolis calcule la distance au centre correspondant à la moyenne je crois, ce qui n'est pas réellement le centre de ma distribution (non gaussienne).
Plus de détails:
En réalité je travaille sur ce problème dans plusieurs dimensions, j'ai plusieurs centres calculés en fonction des distributions, donc un vecteur contenant n centres, et les données correspondantes dans chaque dimensions. Je cherche à identifier les données (par une mesure) qui sont systématiquement distantes de toutes le dimensions.
Je ne sais pas si je suis très clair dans mes propos, mais n'hésitez pas à me poser des questions.
Merci!
Gian
Partager