25

Je suis légèrement confus si une variable indépendante (également appelée prédicteur ou caractéristique) dans un modèle statistique, par exemple le en régression linéaire , est une variable aléatoire? $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
source

12

Le modèle linéaire est conditionnel à

X

$X$ , donc qu'il soit aléatoire ou non ne devrait pas avoir d'importance.

— Xi'an

4

Vérifiez ça . Bonne question, BTW.

— Antoni Parellada

@ Xi'an, dans la conception fixe, les hypothèses du modèle linéaire ne sont pas conditionnées à

X

$X$ , voir ma réponse. Donc, ça compte beaucoup. C'est la raison pour laquelle les expériences sont tellement plus faciles à interpréter que les résultats d'études observationnelles

— Aksakal

19

Il existe deux formulations courantes de régression linéaire. Pour me concentrer sur les concepts, je vais les résumer un peu. La description mathématique est un peu plus impliquée que la description anglaise, alors commençons par cette dernière:

La régression linéaire est un modèle dans lequel une réponse $Y$ est supposée être aléatoire avec une distribution déterminée par les régresseurs $X$ via une carte linéaire $\beta(X)$ et, éventuellement, par d'autres paramètres $\theta$ .

Dans la plupart des cas, l'ensemble des distributions possibles est une famille d'emplacement avec les paramètres $\alpha$ et $\theta$ et $\beta(X)$ donne le paramètre $\alpha$ . L'exemple archétypique est la régression ordinaire dans laquelle l'ensemble des distributions est la famille normale $\mathcal{N}(\mu, \sigma)$ et $\mu=\beta(X)$ est une fonction linéaire des régresseurs.

Parce que je n'ai pas encore décrit cela mathématiquement, c'est toujours une question ouverte à quels types d'objets mathématiques , , et font référence - et je crois que c'est le principal problème dans ce fil. Bien que l'on puisse faire divers choix (équivalents), la plupart seront équivalents à, ou des cas spéciaux, de la description suivante. $X$ $Y$ $\beta$ $\theta$

Régresseurs fixes. Les régresseurs sont représentés comme des vecteurs réels . La réponse est une variable aléatoire (où est doté d'un champ sigma et d'une probabilité). Le modèle est une fonction (ou, si vous le souhaitez, un ensemble de fonctions paramétrées par ). est un sous-collecteur topologique de dimension finie (généralement deuxième différenciable) (ou sous-collecteur avec frontière) de dimension de l'espace des distributions de probabilité. $X\in\mathbb{R}^p$ $Y:\Omega\to\mathbb{R}$ $\Omega$ $f:\mathbb{R}\times\Theta\to M^d$ $\mathbb{R}\to M^d$ $\Theta$ $M^d$ $d$ $f$ est généralement considéré comme continu (ou suffisamment différenciable). sont les "paramètres de nuisance". On suppose que la distribution de est pour un vecteur dual inconnu (les "coefficients de régression") et unknown . Nous pouvons écrire ceci $\Theta\subset\mathbb{R}^{d-1}$ $Y$ $f(\beta(X), \theta)$ $\beta\in\mathbb{R}^{p*}$ $\theta\in\Theta$
$Oui \sim F (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Régresseurs aléatoires. Les régresseurs et la réponse sont une variable aléatoire à valeurs vectorielles . Le modèle est le même type d'objet qu'auparavant, mais il donne maintenant la probabilité conditionnelle $p+1$ $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ $f$
$Oui | X \sim F (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

La description mathématique est inutile sans aucune prescription expliquant comment elle doit être appliquée aux données. Dans le cas du régresseur fixe, nous concevons comme étant spécifié par l'expérimentateur. Ainsi, il pourrait être utile de voir comme un produit doté d'une algèbre sigma de produit. L'expérimentateur détermine et la nature détermine (certains inconnus, abstraits) . Dans le cas du régresseur aléatoire, la nature détermine , le composant de la variable aléatoire détermine $X$ $\Omega$ $\mathbb{R}^p\times \Omega^\prime$ $X$ $\omega\in\Omega^\prime$ $\omega\in\Omega^\prime$ $X$ $\pi_X(Z(\omega))$ $X$ (qui est "observé"), et nous avons maintenant une paire ordonnée exactement comme dans le cas du régresseur fixe. $(X(\omega), \omega)) \in \Omega$

L'exemple archétypique de régression linéaire multiple (que j'exprimerai en utilisant la notation standard pour les objets plutôt que celle plus générale) est que pour une constante . Comme varie tout au long de , son image trace différemment un sous-ensemble unidimensionnel - une courbe - dans la variété bidimensionnelle des distributions normales.

F (β (X), σ) = N (β (X), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$

x

$x$

R^{p}

$\mathbb{R}^p$

Lorsque - de quelque manière que ce soit - est estimé comme et comme , la valeur de est la valeur prédite de associée à si est contrôlé par l'expérimentateur (cas 1) ou n'est observé que (cas 2). Si nous fixons une valeur (cas 1) ou observons une réalisation (cas 2) de , alors la réponse associée à ce est une variable aléatoire dont la distribution est , qui est inconnu mais $\beta$ $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ estimé à . $\mathcal{N}(\hat\beta(x), \hat\sigma)$

— whuber
source

Permettez-moi de mentionner que c'est une réponse fantastique (mais probablement pas pour tout le monde).

— l7ll7

2

PS: Connaissez-vous un livre où ces questions fondamentales sont expliquées aussi précisément que vous l'avez fait ici? En tant que mathématicien, tous les livres que j'ai trouvés reflètent les autres réponses ici, qui sont beaucoup moins précises d'un point de vue mathématique. (Cela ne les rend pas mauvais, bien sûr, c'est juste que ces livres ne sont pas pour moi

— j'adorerais

Dans la première phrase du dernier paragraphe, n'est-il pas la valeur prédite pour (une réalisation de la variable aléatoire ), pas la valeur prédite pour ? Ou ai-je mal compris votre langue, et "valeur prédite pour " signifie "valeur prédite lorsque est la valeur définie (observée) de ?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— Chad

1

@Chad Merci d'avoir souligné le langage ambigu. J'ai modifié cette phrase pour clarifier le sens, ce qui est cohérent avec votre compréhension.

— whuber

7

Tout d'abord, @whuber a donné une excellente réponse. Je vais lui donner un point de vue différent, peut-être plus simple dans un certain sens, également avec une référence à un texte.

MOTIVATION

$X$ peut être aléatoire ou fixe dans la formulation de régression. Cela dépend de votre problème. Pour les soi-disant études observationnelles, elle doit être aléatoire et, pour les expériences, elle est généralement fixe.

Exemple un. J'étudie l'impact de l'exposition au rayonnement électronique sur la dureté d'une pièce métallique. Donc, je prends quelques échantillons de la pièce métallique et l'expose à différents niveaux de rayonnement. Mon niveau d'exposition est X, et il est fixe , car j'ai défini les niveaux que j'ai choisis. Je contrôle entièrement les conditions de l'expérience, ou du moins j'essaye. Je peux faire de même avec d'autres paramètres, tels que la température et l'humidité.

Exemple deux. Vous étudiez l'impact de l'économie sur la fréquence des cas de fraude dans les demandes de carte de crédit. Ainsi, vous régressez l'événement de fraude en fonction du PIB. Vous ne contrôlez pas le PIB, vous ne pouvez pas définir le niveau souhaité. De plus, vous voulez probablement regarder les régressions multivariées, vous avez donc d'autres variables telles que le chômage, et maintenant vous avez une combinaison de valeurs dans X, que vous observez , mais ne contrôlez pas. Dans ce cas, X est aléatoire .

Exemple trois. Vous étudiez l'efficacité d'un nouveau pesticide sur le terrain, c'est-à-dire non pas dans les conditions de laboratoire, mais dans la ferme expérimentale actuelle. Dans ce cas, vous pouvez contrôler quelque chose, par exemple, vous pouvez contrôler la quantité de pesticide à mettre. Cependant, vous ne contrôlez pas tout, par exemple les conditions météorologiques ou les conditions du sol. D'accord, vous pouvez contrôler le sol dans une certaine mesure, mais pas complètement. Il s'agit d'un cas intermédiaire, où certaines conditions sont observées et certaines conditions sont contrôlées . Il y a tout ce domaine d'étude appelé conception expérimentale qui se concentre vraiment sur ce troisième cas, où la recherche agricole en est l'une des plus grandes applications.

MATH

Voici la partie mathématique d'une réponse. Il existe un ensemble d'hypothèses qui sont généralement présentées lors de l'étude de la régression linéaire, appelées conditions de Gauss-Markov. Ils sont très théoriques et personne ne se soucie de prouver qu'ils tiennent dans n'importe quelle configuration pratique. Cependant, ils sont très utiles pour comprendre les limites de la méthode des moindres carrés ordinaires (OLS).

Ainsi, l'ensemble d'hypothèses est différent pour X aléatoire et fixe, ce qui correspond à peu près aux études observationnelles vs expérimentales. En gros, parce que comme je l'ai montré dans le troisième exemple, parfois nous sommes vraiment entre les extrêmes. J'ai trouvé que la section "Gauss-Markov" du théorème dans Encyclopedia of Research Design par Salkind est un bon point de départ, elle est disponible dans Google Books.

Les hypothèses différentes du plan fixe sont les suivantes pour le modèle de régression habituel : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Homoscédasticité, $E[\varepsilon^2]=\sigma^2$
Pas de corrélation série, $E[\varepsilon_i,\varepsilon_j]=0$

par rapport aux mêmes hypothèses dans le plan aléatoire:

$E[\varepsilon|X]=0$
Homoscédasticité, $E[\varepsilon^2|X]=\sigma^2$
Pas de corrélation série, $E[\varepsilon_i,\varepsilon_j|X]=0$

Comme vous pouvez le voir, la différence réside dans le conditionnement des hypothèses sur la matrice de conception pour la conception aléatoire. Le conditionnement rend ces hypothèses plus fortes. Par exemple, nous ne disons pas seulement, comme dans la conception fixe, que les erreurs ont une moyenne nulle; dans la conception aléatoire, nous disons également qu'ils ne dépendent pas de X, covariables.

— Aksakal
source

2

En statistique, une variable aléatoire est une quantité qui varie d'une manière ou d'une autre de façon aléatoire. Vous pouvez trouver une bonne discussion dans cet excellent fil de CV: Qu'entend-on par «variable aléatoire»?

Dans un modèle de régression, les variables prédictives (variables X, variables explicatives, covariables, etc.) sont supposées fixes et connues . Ils ne sont pas supposés être aléatoires. Tout le caractère aléatoire du modèle est supposé être dans le terme d'erreur. Considérons un modèle de régression linéaire simple tel que formulé de façon standard: Le terme d'erreur, , est une variable aléatoire et est la source du caractère aléatoire dans le modèle. Du fait du terme d'erreur, est également une variable aléatoire. Mais n'est pas supposé être une variable aléatoire. (Bien sûr, il pourrait s'agir d'une variable aléatoire en réalité

Oui = β_{0} + β_{1} X + ε où ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$ , mais cela n'est pas supposé ou reflété dans le modèle.)

— gung - Réintégrer Monica
source

Donc tu veux dire que

est une constante? Parce que c'est la seule autre façon de donner un sens à

d'un point de vue mathématique, puisque

est une variable aléatoire et l'addition n'est définie qu'entre deux variables aléatoires et non "autre chose" + variable aléatoire. Bien que l'une des deux variables aléatoires puisse être constante, c'est le cas auquel je fais référence.

X

$X$

X

$X$

ε

$\varepsilon$

— l7ll7

PS J'ai regardé toutes les explications de ce lien et aucune très éclairante: Pourquoi? Parce qu'aucun ne fait le lien entre les variables aléatoires telles que les probabilistes le comprennent par rapport à la façon dont les statisticiens le comprennent. Ainsi, certaines réponses reprennent la définition standard et précise de la théorie des probabilités, tandis que d'autres reformulent la définition statistique (encore peu claire pour moi). Mais aucun n'explique vraiment le lien entre ces deux concepts (la seule exception est la réponse longue du modèle ticket-in-a-box, qui peut être prometteuse, mais quand même [...]

— l7ll7

la différence n'était pas suffisamment étoffée pour être étonnamment éclairante; Je vais devoir méditer sur cette réponse spécifique pour voir si elle a une valeur)

— l7ll7

@ user10324, si vous le souhaitez, vous pouvez considérer

comme un ensemble de constantes. Vous pouvez également le considérer comme une variable non aléatoire.

X

$X$

— gung - Rétablir Monica

Non, la façon de penser variable non aléatoire ne fonctionne pas, pour deux raisons: premièrement, comme je l'ai expliqué dans les commentaires ci-dessus, il n'y a pas de "variable" en mathématiques, et deux, même si c'était le cas , alors l'addition dans ce cas n'est pas définie, comme je l'ai expliqué dans les commentaires ci-dessus.

— l7ll7

1

Je ne sais pas si je comprends la question, mais si vous demandez simplement, "une variable indépendante doit-elle toujours être une variable aléatoire", alors la réponse est non.

Une variable indépendante est une variable qui est supposée être corrélée avec la variable dépendante. Vous testez ensuite si c'est le cas par le biais d'une modélisation (vraisemblablement une analyse de régression).

Il y a beaucoup de complications et de "ifs, mais et maybes" ici, donc je suggérerais d'obtenir une copie d'un livre d'économétrie ou de statistiques de base couvrant l'analyse de régression et de le lire attentivement, ou bien d'obtenir les notes de classe à partir d'une statistique / économétrie de base cours en ligne si possible.

— Statsanalyst
source

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

On dirait que vous avez une bien meilleure compréhension des mathématiques que moi. Je vous donne juste la réponse standard d'économétrie / statistiques de premier cycle universitaire. Je me demande si vous pourriez peut-être y réfléchir un peu, du moins du point de vue de l'analyse pratique. En ce qui concerne la citation de ce livre, mon interprétation est que les x et y spécifiques auxquels il se réfère sont aléatoires - mais cela ne signifie pas que tout x ou tout y est aléatoire.

— Statsanalyst

Par exemple, la variable dépendante dans un modèle pour les tendances de vote dans la politique britannique pourrait être le nombre de votes reçus par le candidat conservateur dans chaque circonscription (circonscription pour les Canadiens, district pour les Américains), et la variable indépendante pourrait être le prix moyen des maisons (un proxy pour richesse / revenu au Royaume-Uni). Aucune de ces variables n'est une variable "aléatoire" si je comprends bien, mais ce serait une chose parfaitement raisonnable à modéliser.

— Statsanalyst

Ok, c'est bon de savoir à quel type de réponses je peux m'attendre / est la norme dans les départements d'économétrie / statistique et j'apprécie beaucoup ces commentaires (je revoterais encore, mais je ne peux pas puisque je l'ai déjà fait). Le problème avec les mathématiques est "une fois que vous devenez noir, vous ne revenez jamais en arrière": une formation d'un an en précision mathématique provoquera un sentiment de malaise si quelque chose n'est pas clair et clair jusqu'à ce que l'on obtienne la clarté [...]

— l7ll7

Variable indépendante = variable aléatoire?

MOTIVATION

MATH