J'ai quelques valeurs aberrantes dans mes données et je voulais les exclure pour voir si cela change les résultats. À votre avis, quel est le nombre maximal de valeurs aberrantes auquel on devrait se limiter?
Merci!
J'ai quelques valeurs aberrantes dans mes données et je voulais les exclure pour voir si cela change les résultats. À votre avis, quel est le nombre maximal de valeurs aberrantes auquel on devrait se limiter?
Merci!
Réponses:
Il n'y a ni maximum ni minimum. Les valeurs aberrantes doivent être supprimées s'il s'agit de données erronées ou s'il existe d'autres raisons substantielles de les supprimer. S'il n'y a pas de raisons substantielles, je suggère d'utiliser des méthodes robustes aux valeurs aberrantes. Je ne supprimerais pas les valeurs aberrantes simplement parce qu'elles sont un peu loin des autres points.
Je voudrais insister sur quelque chose qui a été dit dans une autre réponse et commentaires (je pense que les réponses de @Peter Flom sont exactes et qu'EdM est juste au contact des mesures, entre tous).
L'analyse des données est quelque chose qui doit être fait avec soin. Vous devez être très conscient de la signification des valeurs aberrantes dans votre contact. Par exemple, en supposant que votre procédure de mesure a été effectuée "correctement" (je veux dire, vous n'avez pas introduit de biais, votre équipement a été calibré, la personne qui lit l'instrument l'a fait correctement, etc., etc.), certaines valeurs aberrantes peuvent dire quelque chose d'intéressant et parfois très important.
Voici un exemple inventé, soyez indulgent (indiquez-le dans les commentaires) s'il n'est pas correct à 100% sur tous les aspects. ;)
Disons que quelqu'un teste l'effet de l'application d'une certaine quantité d'une substance à certaines cultures (populations) de bactéries. Maintenant, "en général", l'effet est de stabiliser le nombre de bactéries dans la population, mais il existe des valeurs aberrantes parmi les différentes cultures.
Imaginez que toutes vos valeurs aberrantes indiquent des situations où toutes les bactéries sont mortes. Ou que toutes les valeurs aberrantes représentent des cultures où les populations de bactéries sont devenues incontrôlables.
Ce que je veux souligner, c'est que la nature de vos valeurs aberrantes perçues pourrait être significative et que les conséquences de chacune sont différentes. Vous pourriez être dans une situation où il est intolérable que le nombre de bactéries augmente ou diminue.
Bien sûr, si vous avez remarqué que certaines populations ont été anéanties par la substance, vous enquêteriez probablement sur la question, car il s'agit d'une situation facilement reconnaissable. Mais tous les phénomènes ne sont pas facilement détectables.
Pour conclure, la notion de valeurs aberrantes est quelque peu arbitraire, mais leurs significations sont multiples et d'importance différente. J'espère que cela vous fera réfléchir sur la question ... :)