IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Distances à des distributions


Sujet :

Algorithmes et structures de données

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Février 2007
    Messages
    182
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2007
    Messages : 182
    Points : 52
    Points
    52
    Par défaut Distances à des distributions
    Bonjour à toutes et à tous,

    Je dispose d'un ensemble de données qui forment une distribution de type décalé droite (right skewed).
    Je souhaite, pour chaque donnée de cette distribution, établir la distance qui la sépare du centre de la distribution auquelle elle appartient.
    Autrement dit: la distance qui sépare la donnée ni du centre de la distribution formée par toutes les ni.

    J'ai dans un premier temps utilisé la distance euclidienne, mais dans un but d'identification d'outliers (des données lointaines au centre), je me demande si je ne devrais pas utiliser Mahanabolis? Est-ce que ca a un sens (ca ne revient pas à faire la même chose?)
    De plus Mahanabolis calcule la distance au centre correspondant à la moyenne je crois, ce qui n'est pas réellement le centre de ma distribution (non gaussienne).


    Plus de détails:
    En réalité je travaille sur ce problème dans plusieurs dimensions, j'ai plusieurs centres calculés en fonction des distributions, donc un vecteur contenant n centres, et les données correspondantes dans chaque dimensions. Je cherche à identifier les données (par une mesure) qui sont systématiquement distantes de toutes le dimensions.
    Je ne sais pas si je suis très clair dans mes propos, mais n'hésitez pas à me poser des questions.

    Merci!

    Gian

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    si tu utilises Mahalanobis, c'est comme si tu faisais une étude de la dimension dans laquelle ta donnée n'est pas la plus représentative.
    Mais cela a t-il du sens ? Peux tu dire que deux données ayant la même distance sont des outliers alors que leurs distance a été générée par deux dimensions différentes ?
    Surtout que dans la plupart des cas, les dimensions n'ont pas la même importance dans la représentation de la donnée.
    Donc si tu veux utiliser Mahalanobis, il serait bien de normer au préalable.

    Je pense que le mieux est de travailler en distance Euclidienne et de faire une étude dimension par dimension. Tu auras ainsi les OutLiers pour une dimension et tu pourras essayer de comprendre pourquoi. Les OutLiers globaux seront mieux mis en exergue par une étude sur distance Euclidienne.

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Février 2007
    Messages
    182
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Février 2007
    Messages : 182
    Points : 52
    Points
    52
    Par défaut
    bonjour,

    Tout d'abord merci pour la réactivité et les informations apportées.
    Concernant mes distributions, je sais exactement de quoi il s'agit et mis à part un facteur multiplicatif les distances sont synonymes d'outlier dans chacunes des dimensions.
    J'ajouterai que l'ensemble des distributions sont issues de données faiblement corrélées;

    Je vais commencer par ce que tu précises: à savoir mener une étude en distance euclidienne dimension par dimension: cad (donnée ni - centre) sur chaque dimension. Elle était de toute facon incontournable.

    Merci.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Mise en place d'un comparatif des distributions
    Par Michaël dans le forum Contribuez
    Réponses: 40
    Dernier message: 22/10/2007, 09h49
  2. Cadres à égales distance des bords
    Par roswell51 dans le forum Mise en page CSS
    Réponses: 9
    Dernier message: 06/11/2006, 11h52

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo