J'apprends la fonction de distribution cumulative empirique. Mais je ne comprends toujours pas
Pourquoi est-il appelé «empirique»?
Y a-t-il une différence entre le CDF empirique et le CDF?
J'apprends la fonction de distribution cumulative empirique. Mais je ne comprends toujours pas
Pourquoi est-il appelé «empirique»?
Y a-t-il une différence entre le CDF empirique et le CDF?
Réponses:
Soit une variable aléatoire.
La distinction est la mesure de probabilité utilisée. Pour le CDF empirique, vous utilisez la mesure de probabilité définie par le nombre de fréquences dans un échantillon empirique.
Soit une variable aléatoire désignant le résultat d'un simple lancer de pièce où désigne les têtes et queues.
Le CDF pour une pièce équitable est donné par:
Si vous renversiez 2 têtes et 1 queue, le CDF empirique serait:
Le CDF empirique refléterait que dans l' échantillon, de vos flips étaient têtes.
Soit une variable aléatoire normalement distribuée avec une moyenne de et un écart-type de .
Le CDF est donné par:
Disons que vous avez eu 3 tirages IID et obtenu les valeurs . Le CDF empirique serait:
Avec suffisamment de tirages IID (et certaines conditions de régularité sont remplies), le CDF empirique convergerait vers le CDF sous-jacent de la population.
Y a-t-il une différence entre le CDF empirique et le CDF?
Oui, ils sont différents. Un cdf empirique est un cdf approprié, mais les cdfs empiriques seront toujours discrets même lorsqu'ils ne sont pas tirés d'une distribution discrète, tandis que le cdf d'une distribution peut être autre chose que discret.
Si vous traitez un échantillon comme s'il s'agissait d'une population de valeurs, chacune étant également probable (c.-à-d. Placez la probabilité 1 / n sur chaque observation), alors le cdf de cette distribution serait l'ECDF des données.
Pourquoi s'appelle-t-il «empirique»?
Il s'agit d'une estimation de la population cdf basée sur l'échantillon; Plus précisément, si vous traitez les proportions de l'échantillon à chaque valeur de données distinctes et traitez-le comme s'il s'agissait d'une probabilité dans la population, vous obtenez l'ECDF.
Empirique a un sens quelque chose comme "par observation plutôt que par théorie", et c'est exactement ce que cela signifie dans ce cas ... en utilisant les observations pour déterminer la fonction de distribution.
Le CDF empirique est construit à partir d'un ensemble de données réelles (dans le graphique ci-dessous, j'ai utilisé 100 échantillons d'une distribution normale standard). Le CDF est une construction théorique - c'est ce que vous verriez si vous pouviez prendre une infinité d'échantillons.
Le CDF empirique se rapproche généralement assez bien du CDF, en particulier pour les grands échantillons (en fait, il existe des théorèmes sur la vitesse à laquelle il converge vers le CDF lorsque la taille de l'échantillon augmente).
L'empirique est quelque chose que vous construisez à partir de données et d'observations. Par exemple, supposons que vous souhaitiez connaître la répartition de la taille des personnes dans un pays. Vous commencez par mesurer les gens et vous obtenez un histogramme qui peut être approché d'une distribution. Ensuite, vous calculez le CDF empirique.
Si vous utilisez une distribution statistique (une formule déterministe qui donne exactement la même sortie avec les mêmes paramètres), vous pouvez également calculer son CDF.
Selon Dictionary.com , les définitions de «empirique» comprennent:
dérivé ou guidé par l'expérience ou l'expérience.
Par conséquent, le CDF empirique est le CDF que vous obtenez à partir de vos données. Cela contraste avec le CDF théorique (souvent simplement appelé "CDF"), qui est obtenu à partir d'un modèle statistique ou probabiliste tel que la distribution normale.