Distances à des distributions

**Giansolo** · 09/06/2008, 12h19

Bonjour à toutes et à tous,

Je dispose d'un ensemble de données qui forment une distribution de type décalé droite (right skewed).
Je souhaite, pour chaque donnée de cette distribution, établir la distance qui la sépare du centre de la distribution auquelle elle appartient.
Autrement dit: la distance qui sépare la donnée ni du centre de la distribution formée par toutes les ni.

J'ai dans un premier temps utilisé la distance euclidienne, mais dans un but d'identification d'outliers (des données lointaines au centre), je me demande si je ne devrais pas utiliser Mahanabolis? Est-ce que ca a un sens (ca ne revient pas à faire la même chose?)
De plus Mahanabolis calcule la distance au centre correspondant à la moyenne je crois, ce qui n'est pas réellement le centre de ma distribution (non gaussienne).

Plus de détails:
En réalité je travaille sur ce problème dans plusieurs dimensions, j'ai plusieurs centres calculés en fonction des distributions, donc un vecteur contenant n centres, et les données correspondantes dans chaque dimensions. Je cherche à identifier les données (par une mesure) qui sont systématiquement distantes de toutes le dimensions.
Je ne sais pas si je suis très clair dans mes propos, mais n'hésitez pas à me poser des questions.

Merci!

Gian

**ToTo13** · 09/06/2008, 13h21

Bonjour,

si tu utilises Mahalanobis, c'est comme si tu faisais une étude de la dimension dans laquelle ta donnée n'est pas la plus représentative.
Mais cela a t-il du sens ? Peux tu dire que deux données ayant la même distance sont des outliers alors que leurs distance a été générée par deux dimensions différentes ?
Surtout que dans la plupart des cas, les dimensions n'ont pas la même importance dans la représentation de la donnée.
Donc si tu veux utiliser Mahalanobis, il serait bien de normer au préalable.

Je pense que le mieux est de travailler en distance Euclidienne et de faire une étude dimension par dimension. Tu auras ainsi les OutLiers pour une dimension et tu pourras essayer de comprendre pourquoi. Les OutLiers globaux seront mieux mis en exergue par une étude sur distance Euclidienne.

**Giansolo** · 09/06/2008, 17h09

bonjour,

Tout d'abord merci pour la réactivité et les informations apportées.
Concernant mes distributions, je sais exactement de quoi il s'agit et mis à part un facteur multiplicatif les distances sont synonymes d'outlier dans chacunes des dimensions.
J'ajouterai que l'ensemble des distributions sont issues de données faiblement corrélées;

Je vais commencer par ce que tu précises: à savoir mener une étude en distance euclidienne dimension par dimension: cad (donnée ni - centre) sur chaque dimension. Elle était de toute facon incontournable.

Merci.

Distances à des distributions

Algorithmes et structures de données

Discussions similaires

Partager

Partager