Si nous voulons voir visiblement la distribution d'une donnée continue, laquelle parmi l'histogramme et le pdf devrait être utilisée?
Quelles sont les différences, pas en termes de formule, entre l'histogramme et le pdf?
Si nous voulons voir visiblement la distribution d'une donnée continue, laquelle parmi l'histogramme et le pdf devrait être utilisée?
Quelles sont les différences, pas en termes de formule, entre l'histogramme et le pdf?
Réponses:
Pour clarifier le point Dirks:
Supposons que vos données soient un échantillon d'une distribution normale. Vous pouvez construire le tracé suivant:
La ligne rouge est l'estimation empirique de la densité, la ligne bleue est le pdf théorique de la distribution normale sous-jacente. Notez que l'histogramme est exprimé ici en densités et non en fréquences. Ceci est fait à des fins de traçage, en général les fréquences sont utilisées dans les histogrammes.
Donc pour répondre à votre question: vous utilisez la distribution empirique (ie l'histogramme) si vous voulez décrire votre échantillon, et le pdf si vous voulez décrire la distribution sous-jacente hypothétique.
Le tracé est généré par le code suivant dans R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Un histogramme est une estimation d'âge pré-informatique d'une densité. Une estimation de la densité est une alternative.
De nos jours, nous utilisons les deux, et il existe une riche littérature sur les valeurs par défaut à utiliser.
Un pdf, d'autre part, est une expression de forme fermée pour une distribution donnée . Cela diffère de la description de votre ensemble de données avec une densité ou un histogramme estimé .
Il n'y a pas de règle stricte ici. Si vous connaissez la densité de votre population, alors un PDF est mieux. D'un autre côté, nous traitons souvent d'échantillons et un histogramme peut transmettre des informations qu'une densité estimée recouvre. Par exemple, Andrew Gelman fait valoir ce point:
Un avantage clé d'un histogramme est qu'en tant que tracé de données brutes, il contient les germes de sa propre évaluation des erreurs. Ou, pour le dire autrement, le caractère irrégulier d'un histogramme légèrement sous-lissé fournit un service utile en indiquant visuellement la variabilité d'échantillonnage. C'est pourquoi, si vous regardez les histogrammes dans mes livres et articles publiés, j'utilise presque toujours beaucoup de bacs. Je n'aime également presque jamais ces estimations de densité de noyau que les gens utilisent parfois pour afficher des distributions unidimensionnelles. Je préfère voir l'histogramme et savoir où se trouvent les données.
Histogramme de fréquence relative ( discret )
Histogramme de densité ( discret )
Fonction de densité de probabilité PDF ( continu )
Ces références étaient utiles :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution du site ci-dessus
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html