Je suis légèrement confus si une variable indépendante (également appelée prédicteur ou caractéristique) dans un modèle statistique, par exemple le en régression linéaire , est une variable aléatoire?Y = β 0 + β 1 X
Je suis légèrement confus si une variable indépendante (également appelée prédicteur ou caractéristique) dans un modèle statistique, par exemple le en régression linéaire , est une variable aléatoire?Y = β 0 + β 1 X
Réponses:
Il existe deux formulations courantes de régression linéaire. Pour me concentrer sur les concepts, je vais les résumer un peu. La description mathématique est un peu plus impliquée que la description anglaise, alors commençons par cette dernière:
La régression linéaire est un modèle dans lequel une réponse est supposée être aléatoire avec une distribution déterminée par les régresseurs via une carte linéaire et, éventuellement, par d'autres paramètres .
Dans la plupart des cas, l'ensemble des distributions possibles est une famille d'emplacement avec les paramètres et et donne le paramètre . L'exemple archétypique est la régression ordinaire dans laquelle l'ensemble des distributions est la famille normale et est une fonction linéaire des régresseurs.
Parce que je n'ai pas encore décrit cela mathématiquement, c'est toujours une question ouverte à quels types d'objets mathématiques , , et font référence - et je crois que c'est le principal problème dans ce fil. Bien que l'on puisse faire divers choix (équivalents), la plupart seront équivalents à, ou des cas spéciaux, de la description suivante.
Régresseurs fixes. Les régresseurs sont représentés comme des vecteurs réels . La réponse est une variable aléatoire (où est doté d'un champ sigma et d'une probabilité). Le modèle est une fonction (ou, si vous le souhaitez, un ensemble de fonctions paramétrées par ). est un sous-collecteur topologique de dimension finie (généralement deuxième différenciable) (ou sous-collecteur avec frontière) de dimension de l'espace des distributions de probabilité. Y : Ω → R Ω f : R × Θ → M d R → M d Θ M d d fest généralement considéré comme continu (ou suffisamment différenciable). sont les "paramètres de nuisance". On suppose que la distribution de est pour un vecteur dual inconnu (les "coefficients de régression") et unknown . Nous pouvons écrire ceci
Régresseurs aléatoires. Les régresseurs et la réponse sont une variable aléatoire à valeurs vectorielles . Le modèle est le même type d'objet qu'auparavant, mais il donne maintenant la probabilité conditionnelleY | X ∼ f ( β ( X ) , θ ) .
La description mathématique est inutile sans aucune prescription expliquant comment elle doit être appliquée aux données. Dans le cas du régresseur fixe, nous concevons comme étant spécifié par l'expérimentateur. Ainsi, il pourrait être utile de voir comme un produit doté d'une algèbre sigma de produit. L'expérimentateur détermine et la nature détermine (certains inconnus, abstraits) . Dans le cas du régresseur aléatoire, la nature détermine , le composant de la variable aléatoire détermine(qui est "observé"), et nous avons maintenant une paire ordonnée exactement comme dans le cas du régresseur fixe.
L'exemple archétypique de régression linéaire multiple (que j'exprimerai en utilisant la notation standard pour les objets plutôt que celle plus générale) est que pour une constante . Comme varie tout au long de , son image trace différemment un sous-ensemble unidimensionnel - une courbe - dans la variété bidimensionnelle des distributions normales.
Lorsque - de quelque manière que ce soit - est estimé comme et comme , la valeur de est la valeur prédite de associée à si est contrôlé par l'expérimentateur (cas 1) ou n'est observé que (cas 2). Si nous fixons une valeur (cas 1) ou observons une réalisation (cas 2) de , alors la réponse associée à ce est une variable aléatoire dont la distribution est , qui est inconnu maisβ σ σ β ( x ) Y x x x X Y X N ( β ( x ) , σ ) N ( β ( x ) , σ ) estimé à .
Tout d'abord, @whuber a donné une excellente réponse. Je vais lui donner un point de vue différent, peut-être plus simple dans un certain sens, également avec une référence à un texte.
peut être aléatoire ou fixe dans la formulation de régression. Cela dépend de votre problème. Pour les soi-disant études observationnelles, elle doit être aléatoire et, pour les expériences, elle est généralement fixe.
Exemple un. J'étudie l'impact de l'exposition au rayonnement électronique sur la dureté d'une pièce métallique. Donc, je prends quelques échantillons de la pièce métallique et l'expose à différents niveaux de rayonnement. Mon niveau d'exposition est X, et il est fixe , car j'ai défini les niveaux que j'ai choisis. Je contrôle entièrement les conditions de l'expérience, ou du moins j'essaye. Je peux faire de même avec d'autres paramètres, tels que la température et l'humidité.
Exemple deux. Vous étudiez l'impact de l'économie sur la fréquence des cas de fraude dans les demandes de carte de crédit. Ainsi, vous régressez l'événement de fraude en fonction du PIB. Vous ne contrôlez pas le PIB, vous ne pouvez pas définir le niveau souhaité. De plus, vous voulez probablement regarder les régressions multivariées, vous avez donc d'autres variables telles que le chômage, et maintenant vous avez une combinaison de valeurs dans X, que vous observez , mais ne contrôlez pas. Dans ce cas, X est aléatoire .
Exemple trois. Vous étudiez l'efficacité d'un nouveau pesticide sur le terrain, c'est-à-dire non pas dans les conditions de laboratoire, mais dans la ferme expérimentale actuelle. Dans ce cas, vous pouvez contrôler quelque chose, par exemple, vous pouvez contrôler la quantité de pesticide à mettre. Cependant, vous ne contrôlez pas tout, par exemple les conditions météorologiques ou les conditions du sol. D'accord, vous pouvez contrôler le sol dans une certaine mesure, mais pas complètement. Il s'agit d'un cas intermédiaire, où certaines conditions sont observées et certaines conditions sont contrôlées . Il y a tout ce domaine d'étude appelé conception expérimentale qui se concentre vraiment sur ce troisième cas, où la recherche agricole en est l'une des plus grandes applications.
Voici la partie mathématique d'une réponse. Il existe un ensemble d'hypothèses qui sont généralement présentées lors de l'étude de la régression linéaire, appelées conditions de Gauss-Markov. Ils sont très théoriques et personne ne se soucie de prouver qu'ils tiennent dans n'importe quelle configuration pratique. Cependant, ils sont très utiles pour comprendre les limites de la méthode des moindres carrés ordinaires (OLS).
Ainsi, l'ensemble d'hypothèses est différent pour X aléatoire et fixe, ce qui correspond à peu près aux études observationnelles vs expérimentales. En gros, parce que comme je l'ai montré dans le troisième exemple, parfois nous sommes vraiment entre les extrêmes. J'ai trouvé que la section "Gauss-Markov" du théorème dans Encyclopedia of Research Design par Salkind est un bon point de départ, elle est disponible dans Google Books.
Les hypothèses différentes du plan fixe sont les suivantes pour le modèle de régression habituel :
par rapport aux mêmes hypothèses dans le plan aléatoire:
Comme vous pouvez le voir, la différence réside dans le conditionnement des hypothèses sur la matrice de conception pour la conception aléatoire. Le conditionnement rend ces hypothèses plus fortes. Par exemple, nous ne disons pas seulement, comme dans la conception fixe, que les erreurs ont une moyenne nulle; dans la conception aléatoire, nous disons également qu'ils ne dépendent pas de X, covariables.
En statistique, une variable aléatoire est une quantité qui varie d'une manière ou d'une autre de façon aléatoire. Vous pouvez trouver une bonne discussion dans cet excellent fil de CV: Qu'entend-on par «variable aléatoire»?
Dans un modèle de régression, les variables prédictives (variables X, variables explicatives, covariables, etc.) sont supposées fixes et connues . Ils ne sont pas supposés être aléatoires. Tout le caractère aléatoire du modèle est supposé être dans le terme d'erreur. Considérons un modèle de régression linéaire simple tel que formulé de façon standard:
Le terme d'erreur, , est une variable aléatoire et est la source du caractère aléatoire dans le modèle. Du fait du terme d'erreur, est également une variable aléatoire. Mais n'est pas supposé être une variable aléatoire. (Bien sûr, il pourrait s'agir d'une variable aléatoire en réalité
ε Y X
Je ne sais pas si je comprends la question, mais si vous demandez simplement, "une variable indépendante doit-elle toujours être une variable aléatoire", alors la réponse est non.
Une variable indépendante est une variable qui est supposée être corrélée avec la variable dépendante. Vous testez ensuite si c'est le cas par le biais d'une modélisation (vraisemblablement une analyse de régression).
Il y a beaucoup de complications et de "ifs, mais et maybes" ici, donc je suggérerais d'obtenir une copie d'un livre d'économétrie ou de statistiques de base couvrant l'analyse de régression et de le lire attentivement, ou bien d'obtenir les notes de classe à partir d'une statistique / économétrie de base cours en ligne si possible.