Je veux dire que certaines de ces variables sont fortement corrélées entre elles. Comment / pourquoi / dans quel contexte les définissons-nous comme variables indépendantes ?
Je veux dire que certaines de ces variables sont fortement corrélées entre elles. Comment / pourquoi / dans quel contexte les définissons-nous comme variables indépendantes ?
Réponses:
Si nous nous retirons de l'accent mis aujourd'hui sur l'apprentissage automatique et rappelons la quantité d'analyse statistique qui a été développée pour les études expérimentales contrôlées, l'expression "variables indépendantes" a beaucoup de sens.
Dans les études expérimentales contrôlées, les choix d'un médicament et de ses concentrations, ou les choix d'un engrais et de ses quantités par acre, sont effectués indépendamment par l'investigateur. L'intérêt est de savoir comment une variable de réponse d'intérêt (par exemple, la pression artérielle, le rendement des cultures) dépend de ces manipulations expérimentales. Idéalement, les caractéristiques des variables indépendantes sont étroitement spécifiées, sans aucune erreur dans la connaissance de leurs valeurs. Ensuite, la régression linéaire standard, par exemple, modélise les différences entre les valeurs des variables dépendantes en termes de valeurs des variables indépendantes plus les erreurs résiduelles.
Le même formalisme mathématique utilisé pour la régression dans le contexte d'études expérimentales contrôlées peut également être appliqué à l'analyse d'ensembles de données observés avec peu ou pas de manipulation expérimentale, il n'est donc peut-être pas surprenant que l'expression "variables indépendantes" ait été appliquée à de tels types de données. études. Mais, comme d'autres sur cette page le notent, c'est probablement un choix malheureux, avec des "prédicteurs" ou des "fonctionnalités" plus appropriés dans de tels contextes.
À bien des égards, la «variable indépendante» est un choix malheureux. Les variables ne doivent pas être indépendants les uns des autres, et bien sûr pas besoin d' être indépendant de la variable dépendante . Dans l'enseignement et dans mon livre Stratégies de modélisation de la régression, j'utilise le mot prédicteur . Dans certaines situations, ce mot n'est pas assez fort, mais il fonctionne bien en moyenne. Une description complète du rôle des variables X (côté droit) dans un modèle statistique peut être trop longue à utiliser à chaque fois: l'ensemble des variables ou mesures sur lesquelles la distribution de Y est conditionnée. C'est une autre façon de dire l'ensemble des variables dont nous ne sommes actuellement pas intéressés par les distributions, mais dont nous traitons les valeurs comme constantes.
Je suis d'accord avec les autres réponses ici que «indépendant» et «dépendant» est une mauvaise terminologie. Comme l' explique EdM , cette terminologie est apparue dans le contexte d'expériences contrôlées où le chercheur pouvait définir les régresseurs indépendamment les uns des autres. Il existe de nombreux termes préférables qui n'ont pas cette connotation causale chargée, et d'après mon expérience, les statisticiens ont tendance à préférer les termes plus neutres. De nombreux autres termes sont utilisés ici, notamment les suivants:
Personnellement, j'utilise les termes variables explicatives et variable de réponse, car ces termes n'ont aucune connotation d'indépendance ou de contrôle statistique, etc. n'ont pas trouvé cela problématique.)
Pour ajouter aux réponses de Frank Harrell et Peter Flom:
Je suis d'accord que le fait d'appeler une variable "indépendante" ou "dépendante" est souvent trompeur. Mais certaines personnes le font encore. J'ai entendu une fois une réponse pourquoi:
«Dépendant» et «indépendant» peuvent être des termes prêtant à confusion. Un sens est pseudo-causal ou même causal et c'est celui que l'on entend quand on dit "variable indépendante" et "variable dépendante". Nous voulons dire que le DV, dans un certain sens, dépend de l'IV. Ainsi, par exemple, lors de la modélisation de la relation entre la taille et le poids chez l'homme adulte, nous disons que le poids est le DV et la taille est le IV.
Cela saisit quelque chose que le «prédicteur» ne fait pas - à savoir, la direction de la relation. La taille prédit le poids, mais le poids prédit également la taille. Autrement dit, si on vous disait de deviner la taille des gens et qu'on vous disait leur poids, ce serait utile.
Mais nous ne dirions pas que la taille dépend du poids.
Sur la base des réponses ci-dessus, oui, je conviens que cette variable dépendante et indépendante est une terminologie faible. Mais je peux expliquer le contexte dans lequel il est utilisé par beaucoup d'entre nous. Vous dites que pour un problème de régression général, nous avons une variable de sortie, disons Y, dont la valeur dépend d'autres variables d'entrée, disons x1, x2, x3. C'est pourquoi on l'appelle une "variable dépendante". De même, en fonction de ce contexte uniquement , et juste pour faire la différence entre la variable de sortie et la variable d'entrée, x1, x2, x3 sont appelés variables indépendantes. Car contrairement à Y cela ne dépend d'aucune autre variable (Mais oui ici on ne parle pas là de dépendance avec eux-mêmes.)
Les variables indépendantes sont appelées indépendantes car elles ne dépendent pas d'autres variables. Par exemple, considérons le problème de prédiction du prix des logements. Supposons que nous ayons des données sur la taille de la maison, l'emplacement et le prix de la maison. Ici, le prix de la maison est déterminé en fonction de la taille et de l'emplacement de la maison, mais l'emplacement et la taille de la maison peuvent varier pour différentes maisons.