J'ai lu sur la distance du cuisinier pour identifier les valeurs aberrantes qui ont une grande influence sur ma régression. Dans l'étude originale de Cook, il dit qu'un taux de coupure de 1 devrait être comparable pour identifier les influenceurs. Cependant, diverses autres études utilisent ou4 comme seuil.
Dans mon étude, aucun de mes résidus n'a un D supérieur à 1. Cependant, si j'utilise comme seuil(4, puis il existe différents points de données qui sont considérés comme des influenceurs. J'ai décidé de tester si la suppression de ces points de données ferait une différence dans ma régression linéaire générale. Tous mes IVs ont conservé leur signification et aucun changement évident n'était apparent.
Dois-je conserver tous mes points de données et utiliser le taux de coupure de 1? Ou les supprimer?