J'obtiens des résultats déroutants pour la corrélation d'une somme avec une troisième variable lorsque les deux prédicteurs sont corrélés négativement. Qu'est-ce qui cause ces résultats déroutants?
Exemple 1: corrélation entre la somme de deux variables et une troisième variable
Considérons la formule 16.23 à la page 427 du texte de Guildford de 1965, illustrée ci-dessous.
Constat étonnant: si les deux variables sont en corrélation de 0,2 avec la troisième variable et de -7 avec la corrélation, la formule donne une valeur de 0,52. Comment la corrélation du total avec la troisième variable peut-elle être de 0,52 si les deux variables ne sont chacune corrélées que de 0,2 avec la troisième variable?
Exemple 2: Quelle est la corrélation multiple entre deux variables et une troisième variable?
Considérez la formule 16.1 à la page 404 du texte de Guildford de 1965 (illustré ci-dessous).
Constat troublant: Même situation. Si les deux variables sont en corrélation de 0,2 avec la troisième variable et en corrélation de -7 entre elles, la formule donne une valeur de 0,52. Comment la corrélation du total avec la troisième variable peut-elle être de 0,52 si les deux variables ne sont chacune corrélées que de 0,2 avec la troisième variable?
J'ai essayé une petite simulation de Monte Carlo rapide et cela confirme les résultats des formules de Guilford.
Mais si les deux prédicteurs prédisent chacun 4% de la variance de la troisième variable, comment une somme d'entre eux peut-elle prédire 1/4 de la variance?
Source: Statistiques fondamentales en psychologie et en éducation, 4e éd., 1965.
CLARIFICATION
La situation à laquelle je fais face implique de prédire les performances futures des individus en fonction de la mesure de leurs capacités actuelles.
Les deux diagrammes de Venn ci-dessous montrent ma compréhension de la situation et visent à clarifier ma perplexité.
Ce diagramme de Venn (Fig 1) reflète l'ordre zéro r = .2 entre x1 et C. Dans mon domaine, il existe de nombreuses variables prédictives qui prédisent modestement un critère.
Ce diagramme de Venn (figure 2) reflète deux de ces prédicteurs, x1 et x2, chacun prédisant C à r = .2 et les deux prédicteurs corrélés négativement, r = -. 7.
J'ai du mal à imaginer une relation entre les deux prédicteurs r = .2 qui les auraient ensemble à prédire 25% de la variance de C.
Je cherche de l'aide pour comprendre la relation entre x1, x2 et C.
Si (comme suggéré par certains en réponse à ma question) x2 agit comme une variable de suppression pour x1, quelle zone du deuxième diagramme de Venn est supprimée?
Si un exemple concret serait utile, nous pouvons considérer x1 et x2 comme deux capacités humaines et C comme un GPA de 4 ans, 4 ans plus tard.
J'ai du mal à imaginer comment une variable de suppression pourrait faire en sorte que la variance expliquée de 8% des deux r = 0 d'ordre zéro augmente et explique 25% de la variance de C.Un exemple concret serait une réponse très utile.