J'ai fait beaucoup de recherches sur les valeurs aberrantes, en particulier lorsque j'ai travaillé sur la validation des données énergétiques à Oak Ridge de 1978 à 1980. Il existe des tests formels pour les valeurs aberrantes univariées pour les données normales (par exemple le test de Grubbs et le test de ratio de Dixon). Il existe des tests pour les valeurs aberrantes multivariées et les séries chronologiques. Le livre de Barnett et Lewis sur "Outliers in Statistical Data" est la Bible sur les valeurs aberrantes et couvre à peu près tout.
Lorsque j'étais à Oak Ridge pour travailler sur la validation des données, nous disposions de grands ensembles de données multivariés. Pour les valeurs aberrantes univariées, il y a une direction pour les extrêmes (très au-dessus de la moyenne et très en dessous de la moyenne). Mais pour les valeurs aberrantes multivariées, il existe de nombreuses directions pour rechercher les valeurs aberrantes. Notre philosophie était de réfléchir à l'utilisation prévue des données. Si vous essayez d'estimer certains paramètres tels qu'une corrélation bivariée ou un coefficient de régression, vous voulez regarder dans la direction qui fournit le plus grand effet sur le paramètre d'intérêt. À cette époque, j'avais lu l'article non publié de Mallows sur les fonctions d'influence. L'utilisation des fonctions d'influence pour détecter les valeurs aberrantes est couverte dans le livre d'analyse multivariée de Gnanadesikan. Bien sûr, vous pouvez également le trouver à Barnett et Lewis.
La fonction d'influence d'un paramètre est définie aux points de l'espace multivarié des observations et mesure essentiellement la différence entre l'estimation du paramètre lorsque le point de données est inclus et lorsqu'il est omis. Vous pouvez faire de telles estimations avec chaque point d'échantillonnage, mais vous pouvez généralement dériver une forme fonctionnelle agréable pour la fonction d'influence qui donne un aperçu et un calcul plus rapide.
Par exemple, dans mon article publié dans l' American Journal of Mathematical and Management Science en 1982 "La fonction d'influence et son application à la validation des données", je montre la formule analytique de la fonction d'influence pour la corrélation bivariée et le fait que les contours de l'influence constante sont des hyperboles. Ainsi, les contours indiquent la direction dans le plan où la fonction d'influence augmente le plus rapidement.
Dans mon article, je montre comment nous avons appliqué la fonction d'influence pour la corrélation bivariée avec les données FPC Form 4 sur la génération et la consommation d'énergie. Il existe une forte corrélation positive claire entre les deux et nous avons trouvé quelques valeurs aberrantes qui ont fortement influencé l'estimation de la corrélation. Une enquête plus approfondie a montré qu'au moins un des points était erroné et nous avons pu le corriger.
Mais un point important que je mentionne toujours lorsque je parle de valeurs aberrantes est que le rejet automatique est faux. La valeur aberrante n'est pas toujours une erreur et fournit parfois des informations importantes sur les données. Les données valides ne doivent pas être supprimées simplement parce qu'elles ne sont pas conformes à notre théorie de la réalité. Que cela soit difficile ou non, la raison pour laquelle la valeur aberrante s'est produite doit toujours être recherchée.
Je dois mentionner que ce n'est pas la première fois que des valeurs aberrantes multivariées sont discutées sur ce site. Une recherche de valeurs aberrantes mènerait probablement à plusieurs questions où des valeurs aberrantes multivariées ont été discutées. Je sais que j'ai déjà référencé mon article et ces livres et leur ai donné des liens.
De plus, lorsque le rejet des valeurs aberrantes est discuté, beaucoup d'entre nous sur ce site l'ont recommandé, surtout si cela se fait uniquement sur la base d'un test statistique. Peter Huber mentionne souvent une estimation robuste comme alternative au rejet des valeurs aberrantes. L'idée est que des procédures robustes pondéreront les valeurs aberrantes en réduisant leur effet sur l'estimation sans l'étape lourde de les rejeter et en utilisant un estimateur non robuste.
La fonction d'influence a en fait été développée à l'origine par Frank Hampel dans sa thèse de doctorat au début des années 1970 (1974 je pense). Son idée était en fait d'utiliser des fonctions d'influence pour identifier des estimateurs qui n'étaient pas robustes par rapport aux valeurs aberrantes et pour aider à développer des estimateurs robustes.
Voici un lien vers une discussion précédente sur ce sujet où j'ai mentionné certains de mes travaux sur la détection des valeurs aberrantes dans les séries chronologiques à l'aide des fonctions d'influence.