Dans une régression linéaire multiple avec des régresseurs fortement corrélés, quelle est la meilleure stratégie à utiliser? Est-ce une approche légitime d'ajouter le produit de tous les régresseurs corrélés?
Dans une régression linéaire multiple avec des régresseurs fortement corrélés, quelle est la meilleure stratégie à utiliser? Est-ce une approche légitime d'ajouter le produit de tous les régresseurs corrélés?
Réponses:
Les principaux composants ont beaucoup de sens ... mathématiquement. Cependant, je me méfierais simplement d'utiliser une astuce mathématique dans ce cas et d'espérer que je n'ai pas besoin de penser à mon problème.
Je recommanderais de réfléchir un peu au type de prédicteurs dont je dispose, à la variable indépendante, à la raison pour laquelle mes prédicteurs sont corrélés, si certains de mes prédicteurs mesurent réellement la même réalité sous-jacente (si oui, si je peux simplement travailler avec un mesure unique et lequel de mes prédicteurs serait le mieux pour cela), pour quoi je fais l'analyse - si je ne suis pas intéressé par l'inférence, seulement par la prédiction, alors je pourrais réellement laisser les choses telles qu'elles sont, aussi longtemps que l'avenir les valeurs des prédicteurs sont similaires aux précédentes.
Vous pouvez utiliser des composants principaux ou une régression d'arête pour résoudre ce problème. D'un autre côté, si vous avez deux variables qui sont suffisamment corrélées pour causer des problèmes avec l'estimation des paramètres, alors vous pourriez presque certainement supprimer l'une des deux sans perdre beaucoup en termes de prédiction - parce que les deux variables portent les mêmes informations . Bien sûr, cela ne fonctionne que lorsque le problème est dû à deux indépendants hautement corrélés. Lorsque le problème implique plus de deux variables qui sont ensemble presque colinéaires (dont deux ne peuvent avoir que des corrélations modérées), vous aurez probablement besoin de l'une des autres méthodes.
Voici une autre pensée qui s'inspire de la réponse de Stephan :
Si certains de vos régresseurs corrélés sont significativement liés (par exemple, ce sont des mesures différentes de l'intelligence, c'est-à-dire verbales, mathématiques, etc.), vous pouvez créer une seule variable qui mesure la même variable en utilisant l'une des techniques suivantes:
Additionner les régresseurs (approprié si les régresseurs sont des composants d'un tout, par exemple, QI verbal + QI mathématique = QI global)
Moyenne des régresseurs (appropriée si les régresseurs mesurent la même construction sous-jacente, par exemple, la taille de la chaussure gauche, la taille de la chaussure droite pour mesurer la longueur des pieds)
Analyse factorielle (pour tenir compte des erreurs de mesure et pour extraire un facteur latent)
Vous pouvez ensuite supprimer tous les régresseurs corrélés et les remplacer par la variable qui ressort de l'analyse ci-dessus.
J'étais sur le point de dire à peu près la même chose que Stephan Kolassa ci-dessus (alors j'ai voté pour sa réponse). J'ajouterais seulement que parfois la multicolinéarité peut être due à l'utilisation de variables étendues qui sont toutes fortement corrélées avec une certaine mesure de taille, et les choses peuvent être améliorées en utilisant des variables intensives, c'est-à-dire en divisant tout par une certaine mesure de taille. Par exemple, si vos unités sont des pays, vous pouvez les diviser par population, zone ou PNB, selon le contexte.
Oh - et pour répondre à la deuxième partie de la question d'origine: je ne peux penser à aucune situation où ajouter le produit de tous les régresseurs corrélés serait une bonne idée. Comment cela aiderait-il? Qu'est-ce que cela signifierait?
Je ne suis pas un expert en la matière, mais ma première pensée serait d'exécuter une analyse en composantes principales sur les variables prédictives, puis d'utiliser les composantes principales résultantes pour prédire votre variable dépendante.
Ce n'est pas un remède, mais certainement un pas dans la bonne direction.