Raison intuitive pour laquelle l'information de Fisher sur le binôme est inversement proportionnelle à


12

Cela me rend confus / époustouflant que le binôme a une variance proportionnelle à . De manière équivalente, les informations de Fisher sont proportionnelles à 1p(1p) . Quelle est la raison pour ça? Pourquoi l'information Fisher est-elle minimisée àp=0,5? Autrement dit, pourquoi l'inférence est-elle la plus difficile àp=0,5?1p(1p)p=0.5p=0.5

Le contexte:

Je travaille sur un calculateur de taille d'échantillon, et la formule pour , la taille d'échantillon nécessaire, est un facteur croissant de p ( 1 - p ) , le résultat d'une estimation de la variance dans la dérivation.Np(1p)


3
La variance d'une variable aléatoire de Bernoulli avec le paramètre est p ( 1 - p ) et la variable aléatoire binomiale, étant la somme de N variables aléatoires de Bernoulli indépendantes, a la variance N p ( 1 - p ) , qui est la somme des N les écarts. En ce qui concerne pourquoi p ( 1 - p ) , considérons la variance comme le moment d'inertie autour du centre de masse des masses p et 1 - p à 1pp(1p)NNp(1p)N p(1p)p1p1et respectivement. 0
Dilip Sarwate

Oui, je l' ai dit proportionnel à , ignorer la N . Pouvez-vous élaborer sur votre deuxième partie, cela semble être une perspective intéressante. p(1p)N
Cam.Davidson.Pilon

Réponses:


13

Pour voir, de manière intuitive, que la variance est maximisée à , prenez p égal à 0,99 (resp. P = 0,01 ). Ensuite, un échantillon de X Bernoulli ( p ) contiendra probablement plusieurs 1 (resp. 0 ) et seulement quelques 0 (resp. 1 ). Il n'y a pas beaucoup de variation là-bas.p=0.5p0.99p=0.01XBernoulli(p)1001


C'est vrai. Ce que je devrais peut-être demander, c'est pourquoi l'information Fisher est-elle minimisée à ? p=0.5, c'est-à-dire pourquoi l'inférence est-elle la plus difficile à ? Je mettrai à jour ma question pour refléter cela. p=0.5
Cam.Davidson.Pilon

3
Encore une fois de manière très intuitive: plus il y a de variations, plus vous avez besoin d'informations.
ocram

9

La conclusion est « difficile » pour « au milieu, parce qu'un échantillon p près du milieu est compatible avec une large gamme de p . Près des extrémités, il ne peut pas être si loin - car les extrémités sont des "barrières" au-delà desquelles p ne peut pas aller.pp^pp

Je pense cependant que l'intuition est plus facile à considérer en termes de variance.

L'intuition concernant la variance d'un binôme étant grand au milieu et petit aux extrémités est assez simple: près des points d'extrémité, il n'y a pas de place pour que les données "s'étalent". Considérez petit - parce que la moyenne est proche de 0, la variation ne peut pas être grande - pour que les données moyennes p ne peuvent s'éloigner que de la moyenne.pp

Considérons la variance d'une proportion d'échantillon dans une série d'essais de Bernoulli. Ici . Donc, en tenant n fixe et en variant p , la variation est beaucoup plus petite pour p près de 0:Var(p^)=p(1p)/nnpp

Proportion d'échantillons dans les échantillons binomiaux - ici est juste uniforme au hasard; le cas bleu a une moyenne de 0,03, la moyenne noire 0,5 (un peu de gigue a été ajouté pour que les points ne s'accumulent pas trop et ne perdent pas de détails) yentrez la description de l'image ici

Les fonctions de probabilité correspondantes: entrez la description de l'image ici

Dans chaque cas, faites attention aux lignes marquant la moyenne. À mesure que la ligne moyenne devient plus «coincée» contre la barrière, les points en dessous de la moyenne ne peuvent que descendre légèrement en dessous.

p=12

entrez la description de l'image ici

p^p

[Cette forme d'intuition ne nous dit pas pourquoi elle prend cette forme fonctionnelle exacte, mais elle montre clairement pourquoi la variance doit être petite près des extrémités, et devenir plus petite plus vous vous rapprochez des extrémités.]


En conséquence, les points au-dessus de la moyenne ne peuvent généralement pas aller trop loin au-dessus de la moyenne (car sinon la moyenne se déplacerait!). Près de p = 12, les points d'extrémité ne "poussent pas" de la même façon. Trop parfait. Ceci est une excellente explication.
Cam.Davidson.Pilon

7

L'information de Fisher est la variance de la fonction de score. Et c'est lié à l'entropie. Pour un essai à Bernoulli, nous obtenons un bit pour chaque essai. Donc, cette information Fisher a des propriétés similaires à celles de l'entropie de Shannon, comme on pourrait s'y attendre. En particulier, l'entropie a un maximum à 1/2 et l'information a un minimum à 1/2.


Ah, une autre grande perspective. Je n'y avais pas pensé du point de vue entropique!
Cam.Davidson.Pilon
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.