Une hypothèse pour l'analyse de régression est que et ne sont pas entrelacés. Cependant quand j'y pense Il me semble que cela a du sens.
Voici un exemple. Si nous avons un test avec 3 sections (AB et C). La note globale du test est égale à la somme des notes individuelles pour les 3 sections. Maintenant, il est logique de dire que peut être noté dans la section A et le score global du test. La régression linéaire peut alors répondre à cette question: quelle est la variabilité du score global du test qui est attribuable à la section A? Ici, plusieurs scénarios sont possibles:
- La section A est la plus difficile des 3 sections et les élèves obtiennent toujours le score le plus bas. Dans un tel cas, serait intuitivement faible. Parce que la plupart des résultats globaux du test seraient déterminés par B et C.
- La section A était très facile pour les étudiants. Dans ce cas également, la corrélation ne serait pas élevée. Parce que les étudiants obtiennent toujours 100% de cette section et donc cette section ne nous dit rien sur le score global du test.
- La section A a une difficulté intermédiaire. Dans ce cas, la corrélation serait plus forte (mais cela dépend aussi des autres scores (B et C).
Un autre exemple est le suivant: nous analysons le contenu total d'un oligo-élément dans l'urine. Et nous analysons indépendamment les espèces individuelles (formes chimiques) de cet oligo-élément dans l'urine. Il peut y avoir de nombreuses formes chimiques. Et si nos analyses sont correctes, la somme des formes chimiques devrait nous donner la même chose que le contenu total d'un élément (analysé par une technique différente). Cependant, il est logique de se demander si une forme chimique est corrélée avec la teneur totale en éléments dans l'urine, car cette teneur totale est un indicateur de l'apport total de nourriture de cet élément. Ensuite, si nous disons que est l'élément total dans l'urine et est la forme chimique A dans l'urine, puis en étudiant la corrélation, nous pouvons explorer si cette forme chimique est la principale qui contribue à la variabilité globale ou non.
il me semble que cela a du sens parfois même lorsque et ne sont pas indépendants et que cela peut dans certains cas aider à répondre à des questions scientifiques.
Pensez-vous que peut être utile ou significatif dans les exemples ci-dessus? Si nous considérons l'exemple de score de test ci-dessus, je dirais déjà qu'il y aurait une contribution d'environ 33% de chaque section si la difficulté avait été exactement la même pour les étudiants. Mais en pratique, ce n'est pas nécessairement vrai. Je pensais donc que l'utilisation d'une analyse de régression pourrait nous aider à connaître la véritable variabilité attribuée à chaque section d'un examen. Il me semble donc que serait significatif même si nous savons déjà que l'hypothèse nulle n'est pas vraie.
Existe-t-il d'autres méthodes de régression modifiées pour tenir compte de telles situations et nous fournir des paramètres significatifs?