Probabilité
Les problèmes courants en théorie des probabilités se réfèrent à la probabilité des observations étant donné un certain modèle et étant donné les paramètres (appelons-les ) impliqués. Par exemple, les probabilités de situations spécifiques dans les jeux de cartes ou les jeux de dés sont souvent très simples.X1, x2, . . . , xnθ
Cependant, dans de nombreuses situations pratiques, nous avons affaire à une situation inverse ( statistiques inférentielles ). C'est-à-dire: l'observation est donnée et maintenant le modèle est inconnu , ou du moins nous ne connaissons pas certains paramètres .X1, x2, . . . , xk θθ
Dans ce type de problèmes, nous nous référons souvent à un terme appelé la probabilité des paramètres, , qui est un taux de croyance en un paramètre spécifique étant donné les observations . Ce terme est exprimé comme étant proportionnel à la probabilité des observations supposant qu'un paramètre de modèle serait hypothétiquement vrai. L ( θ )θX1, x2, . . Xkx1,x2,..xkθL(θ,x1,x2,..xk)∝probability observations x1,x2,..xk given θ
Pour une valeur de paramètre donnée plus une certaine observation est probable (par rapport à la probabilité avec d'autres valeurs de paramètre), plus l'observation prend en charge ce paramètre particulier (ou théorie / hypothèse qui suppose ce paramètre) . Une probabilité (relative) élevée renforcera nos croyances sur cette valeur de paramètre (il y a beaucoup plus de philosophie à dire à ce sujet).θx1,x2,..xn
Probabilité dans le problème des chars allemands
Maintenant, pour le problème des chars allemands, la fonction de vraisemblance pour un ensemble d'échantillons est:x1,x2,..xk
L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0(θk)−1if max(x1,x2,..xk)>θif max(x1,x2,..xk)≤θ,
Que vous observiez des échantillons {1, 2, 10} ou des échantillons {8, 9, 10} ne devrait pas avoir d'importance lorsque les échantillons sont considérés à partir d'une distribution uniforme avec le paramètre . Les deux échantillons sont tout aussi probables avec une probabilité et en utilisant l'idée de vraisemblance, l'un des échantillons n'en dit pas plus sur le paramètre que l'autre échantillon.θ(θ3)−1θ
Les valeurs élevées {8, 9, 10} peuvent vous faire penser / croire que devrait être plus élevé. Mais, c'est seulement la valeur {10} qui vous donne vraiment des informations pertinentes sur la probabilité de (la valeur 10 vous indique que sera dix ou plus, les autres valeurs 8 et 9 ne contribuent en rien à cette information ).θθ θθθ
Théorème de factorisation de Fisher Neyman
Ce théorème vous dit qu'une certaine statistique (c'est-à-dire une fonction des observations, comme la moyenne, la médiane ou comme dans le problème du réservoir allemand le maximum) est suffisante (contient toutes les informations) lorsque vous pouvez factoriser, dans la fonction de vraisemblance, les termes qui dépendent des autres observations , de sorte que ce facteur ne dépend pas à la fois du paramètre et (et la partie de la fonction de vraisemblance qui relie les données aux valeurs des paramètres hypothétiques ne dépend que de la statistique mais pas de l'ensemble des données / observations).T(x1,x2,…,xk)x1,x2,…,xkθx1,x2,…,xk
Le cas du problème des chars allemands est simple. Vous pouvez voir ci-dessus que l'expression entière de la vraisemblance ci-dessus ne dépend déjà que de la statistique et le reste des valeurs n'a pas d'importance.max(x1,x2,..xk)x1,x2,..xk
Petit jeu comme exemple
Disons que nous jouons le jeu suivant à plusieurs reprises: est lui-même une variable aléatoire et dessinée avec une probabilité égale soit 100 ou 110. Ensuite, nous dessinons un échantillon .θx1,x2,...,xk
Nous voulons choisir une stratégie pour deviner , basée sur les observés qui maximisent notre probabilité d'avoir la bonne estimation de .θx1,x2,...,xkθ
La bonne stratégie sera de choisir 100 sauf si l'un des nombres de l'échantillon est> 100.
Nous pourrions être tentés de choisir la valeur de paramètre 110 déjà lorsque la plupart des ont tendance à être toutes des valeurs élevées proches de cent (mais aucune exactement au-dessus de cent), mais ce serait faux. La probabilité d'une telle observation sera plus grande lorsque la valeur réelle du paramètre est 100 que lorsqu'elle est 110. Donc, si nous supposons, dans une telle situation, 100 comme valeur du paramètre, nous serons moins susceptibles de faire une erreur (car le situation avec ces valeurs élevées proches de cent, mais toujours en dessous, se produit plus souvent dans le cas où la vraie valeur est 100 plutôt que dans le cas où la vraie valeur est 110).x1,x2,...,xk