"Valeur aberrante" est un terme pratique pour la collecte de données qui ne correspond pas à ce que vous attendez de votre processus, afin de le supprimer de l'analyse.
Je suggérerais de ne jamais (plus tard mettre en garde) éliminer les valeurs aberrantes. Mon expérience est le contrôle statistique des processus. Je traite donc souvent avec de gros volumes de données chronologiques générées automatiquement, qui sont traitées à l’aide d’un diagramme d’exécution / parcelle déroulante / etc., en fonction des données et de la distribution.
Le problème avec les valeurs aberrantes est qu’elles fourniront toujours des informations sur votre «processus». Souvent, ce que vous pensez en tant que processus unique est en réalité composé de plusieurs processus et il est bien plus complexe que ce que vous lui attribuez.
En utilisant l'exemple de votre question, je suggérerais qu'il pourrait y avoir un certain nombre de «processus». il y aura variation en raison de ...
- échantillons prélevés par un dispositif de conductance
- échantillons prélevés entre des dispositifs de conductance
- quand le sujet a enlevé une sonde
- quand le sujet a déménagé
- Différences au sein de la peau d'un sujet sur son corps ou entre différents jours d'échantillonnage (cheveux, humidité, huile, etc.)
- différences entre les sujets
- la formation de la personne qui prend les mesures et les variations entre les membres du personnel
Tous ces processus produiront une variation supplémentaire dans les données et déplaceront probablement la moyenne et changeront la forme de la distribution. Vous ne pourrez pas séparer beaucoup de ces processus en processus distincts.
Donc , aller à l'idée de supprimer des points de données comme des « valeurs aberrantes » ... Je ne supprimer des points de données, quand je peux certainement les attribuer à un « processus » particulier que je veux ne pas inclure dans mon analyse. Vous devez ensuite vous assurer que les raisons de la non-inclusion sont consignées dans le cadre de votre analyse, c'est donc évident. Ne présumez pas que l'attribution est un élément clé pour prendre des notes supplémentaires grâce à l'observation lors de la collecte de données.
Je contesterais votre déclaration "parce que la plupart d’entre elles sont de toute façon des erreurs", car elles ne sont pas des erreurs, mais font simplement partie d’un processus différent que vous avez identifié dans vos mesures comme étant différent.
Dans votre exemple, je pense qu'il est raisonnable d'exclure les points de données que vous pouvez attribuer à un processus séparé que vous ne souhaitez pas analyser.