Est-ce que quelqu'un sait comment déterminer si les points 7, 16 et 29 sont des points d'influence ou non? J'ai lu quelque part que parce que la distance de Cook est inférieure à 1, ils ne le sont pas. Ai-je raison?
Est-ce que quelqu'un sait comment déterminer si les points 7, 16 et 29 sont des points d'influence ou non? J'ai lu quelque part que parce que la distance de Cook est inférieure à 1, ils ne le sont pas. Ai-je raison?
Réponses:
Certains textes vous indiquent que les points pour lesquels la distance de Cook est supérieure à 1 doivent être considérés comme influents. D'autres textes vous donnent un seuil de ou , où est le nombre d'observations et le nombre de variables explicatives. Dans votre cas, cette dernière formule devrait donner un seuil autour de 0,1.4 / ( N - k - 1 ) N k
John Fox (1), dans son livret sur le diagnostic de régression, est plutôt prudent lorsqu'il s'agit de définir des seuils numériques. Il conseille d'utiliser des graphiques et d'examiner plus en détail les points avec "des valeurs de D considérablement plus grandes que les autres". Selon Fox, les seuils ne devraient être utilisés que pour améliorer les affichages graphiques.
Dans votre cas, les observations 7 et 16 pourraient être considérées comme influentes. Eh bien, je voudrais au moins les regarder de plus près. L'observation 29 n'est pas substantiellement différente de quelques autres observations.
(1) Fox, John. (1991). Diagnostics de régression: une introduction . Sage Publications.
+1 à la fois @lejohn et @whuber. Je voulais développer un peu le commentaire de @ whuber. La distance de Cook peut être contrastée avec dfbeta. La distance de Cook indique la distance moyenne parcourue par les valeurs de y prévues si l'observation en question est supprimée de l'ensemble de données. dfbeta fait référence à l'ampleur de la modification d' une estimation de paramètre si l'observation en question est supprimée de l'ensemble de données. Notez qu'avec covariables, il y aura dfbetas (l'interception, et 1 pour chaque covariable). La distance de Cook est probablement plus importante pour vous si vous utilisez une modélisation prédictive, alors que dfbeta est plus important dans la modélisation explicative. k + 1 β 0 β
Il y a un autre point à souligner ici. Dans la recherche observationnelle, il est souvent difficile d’échantillonner de manière uniforme l’espace de prédicteur, et vous pouvez ne disposer que de quelques points dans une zone donnée. De tels points peuvent diverger du reste. Avoir quelques cas distincts peut être déconcertant, mais mérite d’être longuement réfléchi avant d’être relégué au second plan. Il peut exister légitimement une interaction entre les prédicteurs ou le système peut adopter un comportement différent lorsque les valeurs des prédicteurs deviennent extrêmes. En outre, ils peuvent vous aider à démêler les effets des prédicteurs colinéaires. Les points d'influence pourraient être une bénédiction déguisée.