Souvent, un analyste statistique se voit remettre un ensemble de données et se voit demander d’ajuster un modèle à l’aide d’une technique telle que la régression linéaire. Très souvent, le jeu de données est accompagné d'un avertissement similaire à celui-ci: "Oh oui, nous nous sommes trompés en collectant certains de ces points de données - faites ce que vous pouvez".
Cette situation conduit à des crises de régression fortement influencées par la présence de données aberrantes pouvant être des données erronées. Compte tenu de ce qui suit:
Il est dangereux, d'un point de vue scientifique et moral, de publier des données pour une raison autre que celle-ci: "cela donne une mauvaise image".
Dans la vie réelle, les personnes qui ont collecté les données ne sont souvent pas disponibles pour répondre à des questions telles que "lors de la génération de cet ensemble de données, quels points avez-vous ratés, exactement?"
Quels tests statistiques ou règles empiriques peuvent être utilisés comme base pour exclure les valeurs aberrantes dans l'analyse de régression linéaire?
Existe-t-il des considérations spéciales pour la régression multilinéaire?