Résiduel influent vs valeur aberrante

Tout d'abord, je dois dire que j'ai cherché sur ce site la réponse. Soit je n'ai pas trouvé de question qui répondait à ma question, soit mon niveau de connaissances est si bas que je ne savais pas que j'avais déjà lu la réponse.

J'étudie pour l'examen statistique AP. Je dois apprendre la régression linéaire et l'un des sujets est les résidus. J'ai une copie de Introduction à la statistique et à l'analyse des données à la page 253 qu'il indique.

Les points inhabituels dans un ensemble de données bivariées sont ceux qui s'éloignent de la plupart des autres points du nuage de points dans la direction ou la direction $x$ $y$

Une observation est potentiellement une observation influente si elle a une valeur qui est loin du reste des données (séparée du reste des données dans la direction ). Pour déterminer si l'observation est en fait influente, nous évaluons si la suppression de cette observation a un impact important sur la valeur de la pente ou de l'ordonnée à l'origine de la ligne des moindres carrés. $x$ $x$

Une observation est une valeur aberrante si elle a un grand résidu. L'observation aberrante tombe loin de la ligne des moindres carrés dans la direction . $y$

Stattreck.com indique quatre méthodes pour déterminer une valeur aberrante à partir de résidus:

Les points de données qui s'écartent considérablement du modèle global sont appelés valeurs aberrantes. Il existe quatre façons de considérer un point de données comme une valeur aberrante.

Il pourrait avoir une valeur X extrême par rapport à d'autres points de données.

Il pourrait avoir une valeur Y extrême par rapport à d'autres points de données.

Il pourrait avoir des valeurs X et Y extrêmes.

Il peut être éloigné du reste des données, même sans valeurs X ou Y extrêmes.

Ces deux sources semblent se contredire. Quelqu'un pourrait-il aider à dissiper ma confusion. Aussi, comment définit-on extrême. Les statistiques AP utilisent la règle si le point de données est en dehors de (Q1-1.5IQR, Q3 + 1.5IQR) s'il s'agit d'une valeur aberrante. Je ne sais pas comment l'appliquer à partir d'un simple graphique des résidus.

regression outliers residuals

— MaoYiyi
source

Réponses:

Le site stattrek semble avoir une bien meilleure description des valeurs aberrantes et des points influents que votre manuel, mais vous n'avez cité qu'un court passage qui peut être trompeur. Je n'ai pas ce livre en particulier, je ne peux donc pas l'examiner dans son contexte. Gardez cependant à l'esprit que le passage du manuel que vous avez cité dit "potentiellement". Ce n'est pas exclusif non plus. En gardant ces points à l'esprit, stattrek et votre livre ne sont pas nécessairement en désaccord. Mais il semble que votre livre soit trompeur en ce sens qu'il implique (à partir de ce court passage) que la seule différence entre les valeurs aberrantes et les points influents est de savoir si elles s'écartent sur l'axe x ou y. C'est incorrect.

La «règle» pour les valeurs aberrantes varie selon le contexte. La règle que vous citez n'est qu'une règle d'or et oui, pas vraiment conçue pour la régression. Il existe plusieurs façons de l'utiliser. Il pourrait être plus facile de visualiser si vous imaginez plusieurs valeurs y à chaque x et en examinant les résidus. Les exemples typiques de régression des manuels sont trop simples pour voir comment cette règle aberrante pourrait fonctionner, et dans la plupart des cas réels, elle est tout à fait inutile. Avec un peu de chance, dans la vraie vie, vous collectez beaucoup plus de données. S'il est nécessaire que vous appliquiez la règle de quantile pour les valeurs aberrantes à un problème de régression, ils devraient fournir des données pour lesquelles cela est approprié.

— John
source

Merci pour la réponse, cela devient ennuyeux que différents livres essaient d'énoncer ces règles sans vraiment dire que cela dépend honnêtement des données, comme vous le dites.

— MaoYiyi

En fait, je l'ai dit aussi mal ... cela dépend de la théorie, de la méthode et des données ... de toute l'étude.

— John

$X(X'X)^{-1}X'$

L'influence est fonction des points de conception (les valeurs X), comme l'indique votre manuel.

Notez que l'influence est le pouvoir. Dans une expérience conçue, vous voulez des valeurs X influentes, en supposant que vous pouvez mesurer avec précision la valeur Y correspondante. Vous obtenez plus pour votre argent de cette façon.

Pour moi, une valeur aberrante est essentiellement une erreur - c'est-à-dire une observation qui ne suit pas le même modèle que le reste des données. Cela peut se produire en raison d'une erreur de collecte de données ou parce que ce sujet particulier était inhabituel d'une manière ou d'une autre.

Je n'aime pas beaucoup la définition donnée par stattrek d'une valeur aberrante pour plusieurs raisons. La régression n'est pas symétrique en Y et X. Y est modélisé comme une variable aléatoire et les X sont supposés fixes et connus. L'étrangeté dans les Y n'est pas la même chose que l'étrangeté dans les X. L'influence et la valeur aberrante signifient des choses différentes. L'influence, en régression multiple, n'est pas détectée en examinant les parcelles résiduelles. Une bonne description des valeurs aberrantes et de l'influence du cas à variable unique devrait vous permettre de comprendre également les cas multiples.

Je n'aime pas encore plus votre manuel, pour les raisons données par John.

En bout de ligne, les valeurs aberrantes influentes sont dangereuses. Ils doivent être examinés de près et traités.

— Placidia
source

Votre aversion pour l'explication de la régression stattrek est appropriée si vous venez d'un milieu où les vraies expériences sont la norme. Vos raisons s'y appliquent toutes. Mais si vous venez d'un milieu où les conceptions quasi-expérimentales sont plus courantes, le site stattrek a plus de pertinence. Dans ces cas, les valeurs x et y ne sont souvent que des échantillons aléatoires.

— John

@John que diriez-vous de l'arrière-plan de vouloir passer l'examen AP Statistics? Qu'est-ce que la conception quasi expérimentale? Est-ce que cela utilise une table de nombres aléatoires pour une simulation?

— MaoYiyi

Je ne sais rien de l'examen des statistiques AP. Les vraies expériences sont celles où vous manipulez la variable prédictive et créez des groupes pour tester plusieurs hypothèses ou groupes de contrôle et expérimentaux, etc. Les conceptions quasi-expérimentales sont à peu près tout ce qui ressemble à une expérience. Donc, imaginez une régression où la valeur x est le poids et la valeur y est une compétence sportive. Vous ne manipulez aucune variable, vous échantillonnez au hasard les deux. Ainsi, les critiques de Placidia à l'égard de stattrek sont tout à fait valables pour les vraies expériences, mais pas autant pour les quasi.

— John

@John ... Je viens d'un milieu où les expériences conçues sont considérées comme l'étalon-or. Dans la pratique, je sais que X et Y sont souvent des échantillons aléatoires, ce qui pose la question de savoir pourquoi la régression est utilisée, et non une certaine forme d'analyse de variable latente.

— Placidia

Lorsque vous n'avez que deux variables ... :) Parfois, vous avez une bonne théorie pour suggérer qu'une chose en prédit une autre, par exemple, la hauteur et la probabilité d'entrer dans la NBA ... les deux échantillons aléatoires. Dans les cas avec une ou quelques relations linéaires (en particulier non corrélées), la régression est bonne.

— John