C'est presque toujours une triche de supprimer des observations pour améliorer un modèle de régression. Vous ne devez supprimer des observations que lorsque vous pensez vraiment qu'il s'agit en fait de valeurs aberrantes.
Par exemple, vous avez des séries chronologiques provenant du moniteur de fréquence cardiaque connecté à votre montre intelligente. Si vous regardez la série, il est facile de voir qu'il y aurait des observations erronées avec des lectures comme 300bps. Ceux-ci doivent être supprimés, mais pas parce que vous souhaitez améliorer le modèle (quoi que cela signifie). Ce sont des erreurs de lecture qui n'ont rien à voir avec votre fréquence cardiaque.
Une chose à faire attention cependant est la corrélation des erreurs avec les données. Dans mon exemple, on pourrait faire valoir que vous avez des erreurs lorsque le moniteur de fréquence cardiaque est déplacé pendant des exercices tels que courir ou sauter. Ce qui rendra ces erreurs corrélées avec le taux de hart. Dans ce cas, il faut veiller à éliminer ces valeurs aberrantes et erreurs, car elles ne sont pas aléatoires
Je vais vous donner un exemple composé de quand ne pas supprimer les valeurs aberrantes . Disons que vous mesurez le mouvement d'un poids sur un ressort. Si le poids est petit par rapport à la force du poids, alors vous remarquerez que la loi de Hooke fonctionne très bien: où F est la force, k - le coefficient de tension et Δ x est la position du poids .
F= - k Δ x ,
FkΔx
Maintenant, si vous mettez un poids très lourd ou déplacez trop le poids, vous commencerez à voir des écarts: à des déplacements suffisamment importants le mouvement semblera s'écarter du modèle linéaire. Ainsi, vous pourriez être tenté de supprimer les valeurs aberrantes pour améliorer le modèle linéaire. Ce ne serait pas une bonne idée, car le modèle ne fonctionne pas très bien car la loi de Hooke n'est approximativement correcte.Δ x
MISE À JOUR Dans votre cas, je suggère de tirer ces points de données et de les regarder de plus près. Serait-ce une défaillance d'un instrument de laboratoire? Interférence externe? Échantillon défectueux? etc.
Essayez ensuite d'identifier si la présence de ces valeurs aberrantes pourrait être corrélée avec ce que vous mesurez comme dans l'exemple que j'ai donné. S'il y a corrélation, il n'y a pas de moyen simple de s'y prendre. S'il n'y a pas de corrélation, vous pouvez supprimer les valeurs aberrantes