J'ai trouvé une référence dans un article qui va comme:
Selon Tabachnick et Fidell (1996), les variables indépendantes avec une corrélation bivariée supérieure à 0,70 ne devraient pas être incluses dans l'analyse de régression multiple.
Problème: J'ai utilisé dans un plan de régression multiple 3 variables corrélées> 0,80, VIF à environ 0,2 - 0,3, tolérance ~ 4 - 5. Je ne peux exclure aucune d'entre elles (prédicteurs et résultats importants). Lorsque j'ai régressé le résultat sur les 2 prédicteurs qui étaient corrélés à 0,80, ils sont restés à la fois significatifs, chacun prédisait des variances importantes, et ces deux mêmes variables ont la plus grande partie et les coefficients de corrélation semi-partiels parmi les 10 variables incluses (5 contrôles).
Question: Mon modèle est-il valide malgré des corrélations élevées? Toutes les références sont les bienvenues!
Merci pour vos réponses!
Je n'ai pas utilisé Tabachnick et Fidell comme guide, j'ai trouvé cette référence dans un article traitant de la colinéarité élevée entre les prédicteurs.
Donc, fondamentalement, j'ai trop peu de cas pour le nombre de prédicteurs dans le modèle (beaucoup de variables de contrôle catégoriques et codées fictivement - âge, ancienneté, sexe, etc.) - 13 variables pour 72 cas. L'indice de condition est ~ 29 avec tous les contrôles et ~ 23 sans eux (5 variables).
Je ne peux laisser tomber aucune variable ou utiliser l'analyse factorielle pour les combiner parce que, théoriquement, ils ont leur propre sens. Il est trop tard pour obtenir plus de données. Étant donné que je mène l'analyse dans SPSS, il serait peut-être préférable de trouver une syntaxe pour la régression des crêtes (même si je ne l'ai pas fait auparavant et que l'interprétation des résultats serait nouvelle pour moi).
Si cela importe, lorsque j'ai effectué une régression pas à pas, les 2 mêmes variables hautement corrélées sont restées les seuls prédicteurs significatifs du résultat.
Et je ne comprends toujours pas si les corrélations partielles qui sont élevées pour chacune de ces variables comptent pour expliquer pourquoi je les ai conservées dans le modèle (au cas où la régression de crête ne pourrait pas être effectuée).
Diriez-vous que le «diagnostic de régression: identification des données influentes et des sources de colinéarité / David A. Belsley, Edwin Kuh et Roy E. Welsch, 1980» serait utile pour comprendre la multicolinéarité? Ou d'autres références pourraient-elles être utiles?