La régression multiple et multivariée est-elle vraiment différente? Qu'est - ce qu'un variate de toute façon?
La régression multiple et multivariée est-elle vraiment différente? Qu'est - ce qu'un variate de toute façon?
Réponses:
Très rapidement, je dirais que «multiple» s'applique au nombre de prédicteurs qui entrent dans le modèle (ou de manière équivalente la matrice de conception) avec un seul résultat (réponse Y), tandis que «multivarié» fait référence à une matrice de vecteurs de réponse. Je ne me souviens pas de l'auteur qui a commencé sa section d'introduction à la modélisation multivariée avec cet aspect, mais je pense que c'est Brian Everitt dans son manuel An R et S-Plus Companion to Multivariate Analysis . Pour une discussion approfondie à ce sujet, je suggère de consulter son dernier livre, Modélisation multivariée et analyse multivariée pour les sciences du comportement .
Pour « variate », je dirais que c'est une façon courante de faire référence à une variable aléatoire qui suit une distribution connue ou émis l' hypothèse, par exemple , on parle de gaussienne Taxipost comme une série d'observations tirées d'une distribution normale (avec les paramètres et ). En termes probabilistes, nous avons dit qu'il s'agissait de réalisations aléatoires de X, avec l'espérance mathématique , et qu'environ 95% d'entre elles se situeraient dans l'intervalle . μ σ 2[ μ - 2 σ ; μ + 2 σ ]
Voici deux exemples étroitement liés qui illustrent les idées. Les exemples sont un peu centrés sur les États-Unis, mais les idées peuvent être extrapolées à d’autres pays.
Exemple 1
Supposons qu'une université souhaite affiner ses critères d'admission de manière à admettre les «meilleurs» étudiants. Supposons également que l’université souhaite utiliser la moyenne pondérée cumulative (MPC) comme indicateur de performance pour les étudiants. Ils ont plusieurs critères en tête, tels que le GPA pour les études secondaires (HSGPA), les scores au SAT (SAT), le sexe, etc., et souhaiteraient savoir lequel de ces critères compte pour GPA.
Solution: Régression multiple
Dans le contexte ci-dessus, il existe une variable dépendante (GPA) et plusieurs variables indépendantes (HSGPA, SAT, genre, etc.). Vous voulez savoir laquelle des variables indépendantes est un bon prédicteur pour votre variable dépendante. Vous utiliseriez la régression multiple pour effectuer cette évaluation.
Exemple 2
Au lieu de la situation ci-dessus, supposons que le bureau des admissions souhaite suivre les performances des étudiants dans le temps et souhaite déterminer lequel de leurs critères détermine les performances des étudiants dans le temps. En d'autres termes, ils ont des scores GPA pour les quatre années de scolarisation d'un élève (par exemple, GPA1, GPA2, GPA3, GPA4) et veulent savoir laquelle des variables indépendantes prédisent le mieux les scores de GPA année après année. année. Le bureau des admissions espère découvrir que les mêmes variables indépendantes permettent de prédire les performances sur les quatre années, de sorte que le choix des critères d’admission garantit que les performances des étudiants sont systématiquement élevées toutes les quatre années.
Solution: régression multivariée
Dans l'exemple 2, nous avons plusieurs variables dépendantes (c'est-à-dire GPA1, GPA2, GPA3, GPA4) et plusieurs variables indépendantes. Dans une telle situation, vous utiliseriez une régression multivariée.
La régression simple concerne une variable dépendante ( ) et une variable indépendante ( ):
La régression multiple (ou régression multivariable) concerne une variable dépendante et plusieurs variables indépendantes:
La régression multivariée concerne plusieurs variables dépendantes et plusieurs variables indépendantes: . Vous pouvez rencontrer des problèmes lorsque les variables dépendantes et indépendantes sont organisées en matrices de variables (par exemple, et ). l'expression peut être écrite sous la forme , les lettres majuscules désignant des matrices.y 11 , y 12 , . . . x 11 , x 12 , . . . Y = f ( X )
Lectures complémentaires:
En dehors du nombre de variables de part et d'autre de l'équation, je pense que la compréhension clé (et le différenciateur) est que, dans le cas d'une régression multivariée, l'objectif est d'utiliser le fait qu'il existe (généralement) une corrélation entre les variables de réponse (ou résultats). Par exemple, dans un essai médical, les prédicteurs peuvent être le poids, l'âge et la race, et les variables de résultat sont la pression artérielle et le cholestérol. Nous pourrions, en théorie, créer deux modèles de "régression multiple", l'un régressant la pression artérielle sur le poids, l'âge et la race, et un deuxième modèle régressant le cholestérol sur ces mêmes facteurs. Cependant, nous pourrions aussi créer un seul modèle de régression multivarié qui prédit à la foisla pression artérielle et le cholestérol simultanément sur la base des trois variables prédictives. L'idée étant que le modèle de régression multivariée peut être meilleur (plus prédictif) dans la mesure où il peut en apprendre davantage sur la corrélation entre la pression artérielle et le cholestérol chez les patients.
Dans la régression multivariée, il existe plus d'une variable dépendante avec différentes variances (ou distributions). Les variables prédictives peuvent être plus d'un ou plusieurs. Il peut donc s'agir d'une régression multiple avec une matrice de variables dépendantes, c'est-à-dire de variances multiples. Mais quand on parle de régression multiple, on entend seulement une variable dépendante avec une distribution ou variance unique. Les variables prédictives sont plusieurs. Pour résumer, plusieurs font référence à plusieurs variables prédictives, mais multivarié, à plusieurs variables dépendantes.