CDF empirique vs CDF


21

J'apprends la fonction de distribution cumulative empirique. Mais je ne comprends toujours pas

  1. Pourquoi est-il appelé «empirique»?

  2. Y a-t-il une différence entre le CDF empirique et le CDF?



Il y a une explication simple, directe et élégante en termes de tickets dans un modèle de boîte : le CDF décrit ce qui est dans la boîte d'origine. L'ECDF est ce que vous obtenez lorsque vous placez votre échantillon (qui est un ensemble de tickets tirés de la boîte d'origine: données dites "empiriques") dans une boîte vide.
whuber

Une chose à savoir est que votre distribution empirique est généralement limitée par la façon dont elle est construite, alors que le CDF ne l'est peut-être pas. Par exemple, si vous construisez un CDF empirique à partir des observations de la variable Poisson, l'ECDF obtenu va être limité par la fréquence la plus élevée observée, tandis que le vrai CDF est illimité.
Aksakal

Réponses:


27

Soit une variable aléatoire.X

  • La fonction de distribution cumulative donne le .F(x)P(Xx)
  • Une fonction empirique de fonction de distribution cumulative donne basée sur les observations de votre échantillon.G(x)P(Xx)

La distinction est la mesure de probabilité utilisée. Pour le CDF empirique, vous utilisez la mesure de probabilité définie par le nombre de fréquences dans un échantillon empirique.

Exemple simple (coin flip):

Soit X une variable aléatoire désignant le résultat d'un simple lancer de pièce où X=1 désigne les têtes et X=0 queues.

Le CDF pour une pièce équitable est donné par:

F(x)={0for x<012for 0x<11for 1x

Si vous renversiez 2 têtes et 1 queue, le CDF empirique serait:

G(x)={0for x<023for 0x<11for 1X

Le CDF empirique refléterait que dans l' échantillon, 2/3 de vos flips étaient têtes.

Un autre exemple ( F est CDF pour une distribution normale):

Soit X une variable aléatoire normalement distribuée avec une moyenne de 0 et un écart-type de 1 .

Le CDF est donné par:

F(x)=x12πex22

Disons que vous avez eu 3 tirages IID et obtenu les valeurs x1<x2<x3 . Le CDF empirique serait:

G(y)={0for y<x113for x1y<x223for x2y<x31for x3y

Avec suffisamment de tirages IID (et certaines conditions de régularité sont remplies), le CDF empirique convergerait vers le CDF sous-jacent de la population.


12

Y a-t-il une différence entre le CDF empirique et le CDF?

Oui, ils sont différents. Un cdf empirique est un cdf approprié, mais les cdfs empiriques seront toujours discrets même lorsqu'ils ne sont pas tirés d'une distribution discrète, tandis que le cdf d'une distribution peut être autre chose que discret.

Si vous traitez un échantillon comme s'il s'agissait d'une population de valeurs, chacune étant également probable (c.-à-d. Placez la probabilité 1 / n sur chaque observation), alors le cdf de cette distribution serait l'ECDF des données.

Pourquoi s'appelle-t-il «empirique»?

Il s'agit d'une estimation de la population cdf basée sur l'échantillon; Plus précisément, si vous traitez les proportions de l'échantillon à chaque valeur de données distinctes et traitez-le comme s'il s'agissait d'une probabilité dans la population, vous obtenez l'ECDF.

Empirique a un sens quelque chose comme "par observation plutôt que par théorie", et c'est exactement ce que cela signifie dans ce cas ... en utilisant les observations pour déterminer la fonction de distribution.


10

Le CDF empirique est construit à partir d'un ensemble de données réelles (dans le graphique ci-dessous, j'ai utilisé 100 échantillons d'une distribution normale standard). Le CDF est une construction théorique - c'est ce que vous verriez si vous pouviez prendre une infinité d'échantillons.

Le CDF empirique se rapproche généralement assez bien du CDF, en particulier pour les grands échantillons (en fait, il existe des théorèmes sur la vitesse à laquelle il converge vers le CDF lorsque la taille de l'échantillon augmente).

CDF empirique vs CDF


10

L'empirique est quelque chose que vous construisez à partir de données et d'observations. Par exemple, supposons que vous souhaitiez connaître la répartition de la taille des personnes dans un pays. Vous commencez par mesurer les gens et vous obtenez un histogramme qui peut être approché d'une distribution. Ensuite, vous calculez le CDF empirique.

Si vous utilisez une distribution statistique (une formule déterministe qui donne exactement la même sortie avec les mêmes paramètres), vous pouvez également calculer son CDF.

N(μ=1.75 m,σ=0.1 m)


Y a-t-il une mesure de confiance employée qui exprime la probabilité que le CDF et le CDF impérial décrivent la même population dans la limite de tous les échantillonnages expérimentaux dans le monde? Cela semble, par exemple, s'appliquer au scrutin électoral. (mais peut-être pas, car la sortie n'est pas strictement descriptible en tant que fonction ...)
BenPen

3

Selon Dictionary.com , les définitions de «empirique» comprennent:

dérivé ou guidé par l'expérience ou l'expérience.

Par conséquent, le CDF empirique est le CDF que vous obtenez à partir de vos données. Cela contraste avec le CDF théorique (souvent simplement appelé "CDF"), qui est obtenu à partir d'un modèle statistique ou probabiliste tel que la distribution normale.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.