Questions marquées «multicollinearity»

Situation où il existe une forte relation linéaire entre les variables prédictives, de sorte que leur matrice de corrélation devient (presque) singulière. Cette "mauvaise condition" rend difficile la détermination du rôle unique joué par chacun des prédicteurs: des problèmes d'estimation se posent et les erreurs types augmentent. Des prédicteurs corrélés bivariés très élevés sont un exemple de multicolinéarité.

9
Y a-t-il une explication intuitive à la multicolinéarité qui pose problème en régression linéaire?
Le wiki aborde les problèmes qui se posent lorsque la multicollinéarité est un problème en régression linéaire. Le problème fondamental est que la multicolinéarité aboutit à des estimations de paramètres instables, ce qui rend très difficile l'évaluation de l'effet des variables indépendantes sur les variables dépendantes. Je comprends les raisons …


1
Quelle corrélation rend une matrice singulière et quelles sont les implications de la singularité ou de la quasi-singularité?
Je fais des calculs sur différentes matrices (principalement dans la régression logistique) et je reçois généralement l'erreur "Matrix is ​​singular", où je dois revenir en arrière et supprimer les variables corrélées. Ma question est la suivante: que considéreriez-vous comme une matrice "fortement" corrélée? Existe-t-il une valeur seuil de corrélation pour …


6
Pourquoi la multicolinéarité n'est-elle pas vérifiée dans les statistiques modernes / l'apprentissage automatique?
Dans les statistiques traditionnelles, lors de la construction d'un modèle, nous vérifions la multicolinéarité à l'aide de méthodes telles que les estimations du facteur d'inflation de la variance (VIF), mais en apprentissage automatique, nous utilisons plutôt la régularisation pour la sélection des caractéristiques et ne semblons pas vérifier si les …

2
Les variables hautement corrélées en forêt aléatoire ne vont-elles pas fausser la précision et la sélection des caractéristiques?
À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …

3
Quel facteur d'inflation de variance dois-je utiliser: ou ?
Je suis en train d'interpréter les facteurs de la variance de l' inflation à l' aide de la viffonction dans le package R car. La fonction imprime à la fois un généralisé et également . Selon le fichier d'aide , cette dernière valeurVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Pour ajuster la dimension de l'ellipsoïde de …


3
Comment faire la différence entre les modèles de régression linéaire et non linéaire?
Je lisais le lien suivant sur la régression non linéaire SAS non linéaire . Ma compréhension de la lecture de la première section "Régression non linéaire vs régression linéaire" était que l'équation ci-dessous est en fait une régression linéaire, est-ce exact? Si oui, pourquoi? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + …

2
Diagnostic de colinéarité problématique uniquement lorsque le terme d'interaction est inclus
J'ai effectué une régression sur les comtés américains et je vérifie la colinéarité dans mes variables «indépendantes». Les diagnostics de régression de Belsley, Kuh et Welsch suggèrent d'examiner l'indice de condition et les proportions de décomposition de la variance: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance …


2
L'ACP est-elle instable en multicolinéarité?
Je sais que dans une situation de régression, si vous avez un ensemble de variables hautement corrélées, cela est généralement "mauvais" en raison de l'instabilité des coefficients estimés (la variance va vers l'infini car le déterminant va vers zéro). Ma question est de savoir si cette «méchanceté» persiste dans une …



1
Comment gérer une forte corrélation entre les prédicteurs dans la régression multiple?
J'ai trouvé une référence dans un article qui va comme: Selon Tabachnick et Fidell (1996), les variables indépendantes avec une corrélation bivariée supérieure à 0,70 ne devraient pas être incluses dans l'analyse de régression multiple. Problème: J'ai utilisé dans un plan de régression multiple 3 variables corrélées> 0,80, VIF à …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.