Qu'entend-on par «variable aléatoire»?

69

Que veulent-ils dire quand ils parlent de "variable aléatoire"?

— Baltimark
source

35

Une variable aléatoire est une variable dont la valeur dépend d'événements inconnus. Nous pouvons résumer les événements inconnus sous la forme "d'état", puis la variable aléatoire est une fonction de l'état.

Exemple:

Supposons que nous ayons trois lancers de dés ( , , ). Ensuite, l'état . $D_{1}$ $D_{2}$ $D_{3}$ $S=(D_{1},D_{2},D_{3})$

Une variable aléatoire est le nombre de 5. C'est: $X$

X = (D_{1} = 5 ?) + (D_{2} = 5 ?) + (D_{3} = 5 ?)

$X=(D_{1}=5?)+(D_{2}=5?)+(D_{3}=5?)$

Une autre variable aléatoire est la somme des lancers de dés. C'est: $Y$

Y = D_{1} + D_{2} + D_{3}

$Y=D_{1}+D_{2}+D_{3}$

— Paul
source

Merci pour la réponse claire et concise. Cela soulève une question sur le but de séparer l'état inconnu du résultat (j'imagine que c'est ainsi que le domaine et la plage de la "variable aléatoire" sont appelés en théorie des probabilités). Il semble que l’état inconnu s’appelle a sample, ce que j’ai demandé de distinguer des résultats . Pourquoi avez-vous besoin d'introduire une fonction et de l'appeler variable aléatoire, alors qu'elle est absolument déterministe et pas variable du tout? Pourquoi ne pouvez-vous pas analyser immédiatement le résultat?

— Val

2

Quand les "événements" deviennent "connus", qu'advient-il de la variable aléatoire? Selon cette réponse, il ne peut plus exister! Le fait que cette réponse repose sur des idées aussi nébuleuses que "connues" - qui est purement subjective - la rend moins que satisfaisante en tant que définition ou explication de variables aléatoires.

— whuber

1

@whuber L'anglais et d'autres langages humains sont nécessairement imprécis. Il semble que vous choisissiez le mot "dépend" et non "connu". "est une fonction de" est plus précis, mais ensuite "événements inconnus" est vague et les mathématiciens définissent un "espace de probabilité", une "algèbre de sigma", des "fonctions mesurables", etc. Si vous avez besoin d'un traitement plus rigoureux, Wikipedia en a: fr.wikipedia.org/wiki/Random_variable

— Paul

1

@whuber Alors que wikipedia se précipite dans le jargon mathématique pour obtenir de la précision, je remarque que votre réponse, un exemple pour un profane digne de ce nom, nécessite une lecture utile, mais environ 16 paragraphes. Mais que dire à un étudiant de premier cycle qui veut une réponse qui prend 5 secondes à lire? Les clients apprécient la brièveté des définitions.

— Paul

5

C'est une fonction à valeur réelle mesurable sur un espace de probabilité. Avec chacun de ces termes techniques - "mesurable", "fonction réelle" et "espace de probabilité", j'estime avoir perdu 90% de l'audience potentielle, ne laissant que 0,1% de compréhension et d'appréciation de la définition. Incidemment, c'est une définition purement mathématique. C'est inutile tant qu'on n'a pas précisé comment on peut l'appliquer à un problème statistique réel - mais au moins, c'est correct (même s'il n'est pas complètement général).

— whuber

69

introduction

En réfléchissant à un commentaire récent, j'ai remarqué que toutes les réponses jusqu'à présent souffrent de l'utilisation de termes non définis tels que "variable" et de termes vagues comme "inconnu" ou d'un appel à des concepts mathématiques techniques tels que "fonction" et "espace de probabilité". Que devrions-nous dire à la personne non mathématique qui souhaiterait une définition simple, intuitive et précise de la "variable aléatoire"? Après quelques préliminaires décrivant un modèle simple de phénomènes aléatoires, je propose une définition suffisamment courte pour tenir sur une ligne. Parce que cela pourrait ne pas satisfaire pleinement le cognoscenti , un après explique comment l’étendre à la définition technique habituelle.

Billets dans une boîte

Une façon d’aborder l’idée d’une variable aléatoire consiste à faire appel au modèle du ticket-in-a-box de l’aléatoire . Ce modèle remplace une expérience ou une observation par une boîte pleine de tickets. Sur chaque ticket est écrit un résultat possible de l'expérience. (Un résultat peut être aussi simple que des "têtes" ou des "queues", mais en pratique, il s'agit d'une chose plus complexe, telle que l'historique des cours des actions, l'enregistrement complet d'une longue expérience ou la séquence de tous les mots d'un document. .) Tous les résultats possibles apparaissent au moins une fois parmi les billets; certains résultats peuvent apparaître sur de nombreux tickets.

Au lieu de mener l'expérience, nous imaginons bien mélanger tous les billets et en choisir un, à l'aveuglette. Si nous pouvons montrer que l'expérience réelle doit se comporter comme si elle avait été conduite de cette façon, nous avons réduit une expérience réelle potentiellement complexe (et coûteuse et longue) à une simple expérience intuitive (ou "modèle statistique"). "). La clarté et la simplicité offertes par ce modèle permettent d'analyser l'expérience.

Un exemple

Les exemples standard concernent les résultats de lancer des pièces de monnaie et des dés et de dessiner des cartes à jouer. Celles-ci sont quelque peu gênantes pour leur trivialité, alors pour illustrer notre propos, supposons que nous nous inquiétions du résultat de l'élection présidentielle américaine de 2016. Pour simplifier (minuscule), je supposerai que l'un des deux principaux partis - Republican (R) ou Democratic (D) - gagnera. Parce que (avec les informations actuellement disponibles) le résultat est incertain, nous imaginons mettre des tickets dans une boîte: certaines avec "R" écrit dessus, d'autres avec "D". Notre modèle de résultat consiste à tirer exactement un ticket de cette boîte.

Il manque quelque chose: nous n'avons pas encore précisé le nombre de tickets pour chaque résultat. En fait, le principal problème de la statistique consiste à le découvrir: sur la base des observations (et de la théorie), que peut-on dire de la proportion relative de chaque résultat dans la boîte?

(J'espère qu'il est clair que les proportions de chaque type de ticket dans la boîte déterminent ses propriétés, plutôt que le nombre réel de chaque ticket. Les proportions sont définies - comme d'habitude - comme le nombre de chaque type de ticket divisé par Par exemple, une boîte avec un billet "D" et un billet "R" se comporte exactement comme une boîte avec un million de billets "D" et un million de billets "R", car dans chaque cas, chaque type est 50% de tous les billets et chacun a donc 50% de chances d’être tiré lorsque les billets sont mélangés à fond.)

Rendre le modèle quantitatif

Mais ne poursuivons pas cette question ici, car nous approchons de notre objectif de définir une variable aléatoire. Le problème avec le modèle à ce jour est qu’il n’est pas quantifiable, alors que nous voudrions pouvoir répondre à des questions quantitatives avec ce modèle . Et je ne parle pas non plus de banales, mais de véritables questions pratiques telles que "si mon entreprise investit un milliard d'euros dans le développement de combustibles fossiles en mer aux États-Unis, quelle sera la valeur de cet investissement à la suite des élections de 2016 ? " Dans ce cas, le modèle est si simple qu'il n'y a pas grand chose à faire pour obtenir une réponse réaliste à cette question, mais nous pourrions aller jusqu'à consulter notre personnel économique et lui demander son avis sur les deux résultats possibles:

Si les démocrates gagnent, dans quelle mesure l'investissement changera-t-il? (Supposons que la réponse est dollars.) $d$
Si les républicains gagnent, combien cela va changer? (Supposons que la réponse est dollars.) $r$

Les réponses sont des nombres. Pour les utiliser dans le modèle, je demanderai à mon personnel de passer en revue tous les tickets dans la boîte et sur chaque ticket "D", d'écrire " dollars" et sur chaque ticket "R", d'écrire " dollars". Nous pouvons maintenant modéliser l'incertitude inhérente à l'investissement de manière claire et quantitative: son changement de valeur après l'élection correspond à la réception de la somme d'argent inscrite sur un seul ticket tiré au hasard dans cette zone. $d$ $r$

Ce modèle nous aide à répondre à des questions supplémentaires sur l’investissement. Par exemple, quelle incertitude devrions-nous avoir sur la valeur de l'investissement ? Bien qu'il existe des formules mathématiques (simples) pour cette incertitude, nous pourrions reproduire leurs réponses de manière raisonnablement précise en utilisant notre modèle à plusieurs reprises - peut-être mille fois plus - pour voir quels types de résultats se produisent réellement et en mesurer la propagation. Un modèle ticket-in-a-box nous permet de raisonner de manière quantitative sur des résultats incertains.

Variables aléatoires

Pour obtenir des réponses quantitatives à des phénomènes incertains ou variables, nous pouvons adopter un modèle ticket-in-a-box et inscrire des nombres sur les tickets. Ce processus d'écriture de nombres ne doit suivre qu'une seule règle: il doit être cohérent. Dans l'exemple, chaque ticket démocrate doit porter l' inscription " dollars" - sans exception - et chaque ticket républicain doit comporter l' inscription " dollars". $d$ $r$

Une variable aléatoire est un moyen cohérent d'écrire des nombres sur des tickets dans une boîte.

$X$ $Y$ $\omega$ $X$ $\omega$ $X(\omega)$ $X$ $X(\text{D})=d$ $X(\text{R}) = r$ $X$ $X$ $X$

$X$

Après: à propos de la mesurabilité

Lorsque la définition de variable aléatoire est accompagnée de la mise en garde "mesurable", le concepteur a en tête une généralisation du modèle du ticket-in-a-box à des situations avec une infinité de résultats possibles. (Techniquement, il est nécessaire d’avoir des résultats infinis et innombrables ou d’ impliquer des probabilités irrationnelles . Même dans ce dernier cas, il peut être évité.) Avec d’innombrables résultats, il est difficile de dire quelle serait la proportion du total. S'il y a une infinité de billets "D" et un nombre infini de billets "R", quelles sont leurs proportions relatives? Nous ne pouvons pas le savoir avec une simple division d'un infini par un autre!

Dans ces cas, nous avons besoin d’une manière différente de spécifier les proportions. Un ensemble "mesurable" de tickets est un ensemble de tickets dans la boîte pour lesquels leur proportion peut être définie. Lorsque cela est fait, le nombre que nous avons considéré comme une "proportion" est appelé la "probabilité". (Chaque collection de billets n'a pas nécessairement de probabilité associée.)

$X$ $X(\omega)$ $a$ $b$ $a$ $b$

— whuber
source

7

Pour ceux qui ne connaissaient pas encore les variables aléatoires ou les modèles ticket-in-a-box, un didacticiel interactif rapide sur mon site Web à l' adresse quantdec.com/envstats/notes/class_06/tutorial.htm fournit des informations pratiques et des concepts supplémentaires.

— whuber

2

Un exemple concret illustrant ces concepts figure à l' adresse stats.stackexchange.com/a/68782 .

— whuber

2

NB Je suppose que beaucoup de gens utilisent le terme "population" approximativement dans le sens des tickets dans une boîte. J'évite cette terminologie car il semble que nous ne puissions créer que des modèles de probabilité pour échantillonner des populations (physiques) réelles. Même lorsqu'une population physique est échantillonnée, il est rare qu'il y ait une correspondance parfaite entre elle et les tickets. Par exemple, personne ne pourra jamais énumérer le peuple chinois vivant le 1er janvier 2014, en partie à cause des incertitudes quant à la date de naissance des personnes, à leur décès et même à leur nationalité.

— whuber

4

@jsk L'introduction de cette réponse explique pourquoi un tel soin semblait nécessaire. Bien qu'il soit vrai que deux autres réponses de ce fil de discussion contiennent une définition correcte et complète ("une fonction mesurable d'un espace de probabilité à un espace mesurable appelé espace d'état"), cette définition nécessite implicitement la compréhension des préliminaires relatifs aux algèbres de sigma, mesures de probabilité, et des fonctions mesurables. Les lecteurs vont se plaindre "que ce sont des choses de niveau universitaire" .

— whuber

4

@ user4205580 Pour une définition purement mathématique, la "cohérence" n'est pas du tout nécessaire, car pour le mathématicien, la variable aléatoire est simplement "donnée". Comme indiqué ici, il s'agit d'une condition importante pour les applications statistiques, car de nombreuses données ne sont pas numériques: les variables aléatoires doivent être construites de manière appropriée pour le modèle et les objectifs analytiques. Vous pouvez décider vous-même s'il y a une valeur pour vous dans cette distinction conceptuelle.

— whuber

16

De manière informelle, une variable aléatoire permet d’attribuer un code numérique à chaque résultat possible. *

Exemple 1

$\{H,T\}$

$X$ $X(H)=1$ $X(T)=0$ $1$ $0$

Exemple 2

{A ♠, K ♠, \dots, 2 ♠, A ♡, K ♡, \dots, 2 ♡, A ♢, K ♢, \dots, 2 ♢, A ♣, K ♣, \dots, 2 ♣} .

$\{A♠, K♠, \dots, 2♠, A♡, K♡, \dots, 2♡, A♢, K♢, \dots, 2♢, A♣, K♣, \dots, 2♣ \}.$

En bridge, un as vaut 4 points de cartes, un roi 3, une reine 2 et un valet 1. Toute autre carte vaut 0 point.

$Y$ $Y\left(A♡ \right)=4$ $Y\left(J♣ \right)=1$ $Y\left(7♠ \right)=0$

$H$ $T$ $A♠$

* Formellement une variable aléatoire est une fonction qui mappe chaque résultat (dans l'espace échantillon) à un nombre réel.

— Kenny LJ
source

5

+1 Cette réponse va droit au but, est correcte et claire - évitant ainsi le non-sens relatif aux valeurs "inconnue" et "changeante" qui imprègnent les autres réponses de ce fil.

— whuber

12

Contrairement à une variable régulière, une variable aléatoire ne peut pas être substituée à une valeur unique et immuable. On peut plutôt indiquer des propriétés statistiques telles que la distribution de la variable aléatoire. La distribution est une fonction qui fournit la probabilité que la variable prenne une valeur donnée ou se situe dans une plage donnée en fonction de certains paramètres tels que la moyenne ou l'écart type.

Les variables aléatoires peuvent être classées comme discrètes si la distribution décrit les valeurs d'un ensemble dénombrable, telles que les entiers. L'autre classification d'une variable aléatoire est continue et est utilisée si la distribution couvre les valeurs d'un ensemble indénombrable tel que les nombres réels.

— Sharpie
source

2

Il est probablement préférable de ne pas utiliser le terme "variable normale" lorsque vous ne voulez pas parler d'une variable aléatoire distribuée normalement.

— Rob Hyndman

D'accord. Bien que personnellement, je regarderais quelqu'un drôle pendant quelques secondes s'il disait "variable normale" et ne jette pas le mot "aléatoire" ou "distribué" quelque part pour m'indiquer que c'est ce dont ils discutaient. Mais je suis aussi un ingénieur et non un statisticien, je n'utilise donc pas beaucoup de notation spécifique à un domaine.

— Sharpie

7

Les variables aléatoires peuvent être classées comme discrètes si elles n'attirent pas l'attention sur elles-mêmes. Si elles sont simplement dénombrables, nous disons discrètes :-P. Vous voulez aussi dire prescrire plutôt que proscrire, mais je pense que décrire pourrait être plus approprié. Bonne réponse, de toute façon - espérons que +1 contribuera à atténuer les ennuis!

— walkytalky

@walkytalky Merci pour les corrections, j'ai apporté quelques corrections.

— Sharpie

1

Toute variable est un espace réservé pour une valeur. Vous pouvez affecter telle ou telle valeur à une variable (l’ensemble des valeurs que vous pouvez affecter est contraint par un ensemble appelé type ). Les variables qui conservent une valeur unique et immuable sont appelées «constantes». Peut-être que vous vouliez dire que la variable aléatoire conserve une valeur connue alors que la valeur de la variable aléatoire est inconnue? Cela contredit les autres réponses, qui disent que la variable aléatoire n'est pas une variable du tout, mais une fonction qui mappe (de manière déterministe) un état inconnu à autre chose. Ce n'est pas aléatoire et ce n'est pas une variable, disent-ils.

— Val

6

On m'a raconté cette histoire:

Une variable aléatoire peut être comparée au saint empire romain: le Saint Empire romain germanique n'était pas saint, il ne l'était pas non plus, et ce n'était pas un empire.

De la même manière, une variable aléatoire n'est ni aléatoire, ni variable. C'est juste une fonction. (l'histoire a été racontée ici: source ).

C'est au moins une façon amusante d'expliquer, ce qui pourrait aider les gens à s'en souvenir!

— kjetil b halvorsen
source

3

De Wikipedia :

En mathématiques (en particulier la théorie des probabilités et les statistiques), une variable aléatoire (ou variable stochastique) est (en général) une fonction mesurable qui mappe un espace de probabilité dans un espace mesurable. Les variables aléatoires mappant tous les résultats possibles d'un événement dans les nombres réels sont fréquemment étudiées dans les statistiques élémentaires et utilisées dans les sciences pour faire des prédictions basées sur des données obtenues à partir d'expériences scientifiques. Outre les applications scientifiques, des variables aléatoires ont été développées pour l'analyse des jeux de hasard et des événements stochastiques. L'utilité des variables aléatoires vient de leur capacité à ne capturer que les propriétés mathématiques nécessaires pour répondre à des questions probabilistes.

De cnx.org :

Une variable aléatoire est une fonction qui attribue des valeurs numériques uniques à tous les résultats possibles d'une expérience aléatoire dans des conditions fixes. Une variable aléatoire n'est pas une variable mais plutôt une fonction qui mappe des événements à des nombres.

— Mehper C. Palavuzlar
source

4

Aucune des définitions de cnx.org n'est correcte: la première en raison de son utilisation vague - et éventuellement trompeuse - de "conditions uniques" et "fixes" et la seconde parce que c'est tout simplement faux; un RV est défini sur les résultats (éléments de l'espace échantillon), et non sur les événements (ensembles de résultats mesurables).

— whuber

P = κ λ e^{- λ t}

$P=\kappa \lambda e^{-\lambda t}$

κ = \int_{0}^{\infty} P (t) d t

$\kappa=\int_0^\infty P(t) dt$

E D (t) = λ e^{- λ t}

$ED(t)=\lambda e^{-\lambda t}$

E D (t)

$ED(t)$

1

f (x)

$f(x)$

3

Une variable aléatoire, généralement notée X, est une variable dont le résultat est incertain. L'observation d'un résultat particulier de cette variable s'appelle une réalisation. Plus concrètement, il s’agit d’une fonction qui mappe un espace de probabilité dans un espace mesurable, généralement appelé espace d’états. Les variables aléatoires sont discrètes (peuvent prendre un certain nombre de valeurs distinctes) ou continues (peuvent prendre un nombre infini de valeurs).

Considérons la variable aléatoire X qui est le total obtenu en lançant deux dés. Il peut prendre n'importe laquelle des valeurs 2 à 12 (avec une probabilité égale, compte tenu des dés justes) et le résultat est incertain jusqu'à ce que les dés soient lancés.

— Graham Cookson
source

5

Juste une pensée, mais cela ressemble à dire que vous dites que la probabilité d'obtenir un 12 (1/36) est la même chose qu'un 7 (1/6).

— jefflovejapan

0

Dans mes études universitaires non mathématiques, on nous a dit qu'une variable aléatoire est une carte des valeurs que cette variable peut prendre avec les probabilités. Cela a permis de dessiner les distributions de probabilité

Récemment, j'ai réalisé à quel point cela diffère de ce que les mathématiciens ont à l'esprit. Il s’avère que par variable aléatoire, ils désignent une fonction simple X: Ω → R, qui prend un élément de l’espace échantillon Ω ( résultat, ticket ou individu , comme expliqué ci-dessus) et le traduit en un nombre réel R compris dans la plage ( -∞, ∞). C'est-à-dire qu'il a été judicieusement noté ci-dessus que ce n'est pas aléatoire ni variable du tout. Le caractère aléatoire vient généralement avec la mesure de probabilité P, dans le cadre de l’espace de mesure (Ω, P). P mappe les échantillons sur R, comme pour la variable aléatoire, mais cette plage de temps est limitée à [0,1] et nous pouvons dire que la variable aléatoire traduit (Ω, P) en (R, P), une variable donc aléatoire est dotée de la probabilité mesurez P: R -> [0,1] pour que vous puissiez dire pour chaque x de R quelle est la probabilité de son apparition.

$\Omega$

H (Ω) = \sum P (Ω_{i}) l n (Ω_{i})

$H(\Omega) = \sum{P(\Omega_i) ln (\Omega_i)}$

l'intégrale n'a besoin d'aucune valeur réelle de variable aléatoire.

— Val
source

X

$X$

A

$A$

σ

$\sigma$

A

$\mathcal{A}$