Solution au problème des chars allemands

Existe-t-il une preuve mathématique formelle que la solution au problème des chars allemands est fonction uniquement des paramètres k (nombre d'échantillons observés) et m (valeur maximale parmi les échantillons observés)? En d'autres termes, peut-on prouver que la solution est indépendante des autres valeurs d'échantillon en plus de la valeur maximale?

mathematical-statistics sufficient-statistics

— Bogdan Alexandru
source

Ce que vous demandez, c'est comment montrer que l'échantillon maximum est suffisant pour le paramètre spécifiant la limite supérieure d'une distribution uniforme discrète de 1 à .

θ

$\theta$

θ

$\theta$

— Scortchi - Réintégrer Monica

Théorème de factorisation de Fisher Neyman La fonction de vraisemblance, probabilité des échantillons observés (résumée par le maximum ) étant donné les paramètres (le nombre de réservoirs) peut être complètement écrite en termes de et

Serait-ce une réponse?

k

$k$

m

$m$

n

$n$

k

$k$

m

$m$

Pr (M = m | n, k) = {\begin{cases} 0 & if m > n \\ \frac{(\binom{m - 1}{k - 1})}{(\binom{n}{k})} & if m \leq n, \end{cases}

$\Pr(M=m | n,k) = \begin{cases} 0 &\text{if } m > n \\ \frac{\binom{m - 1}{k - 1}}{\binom n k} &\text{if } m \leq n, \end{cases}$

— Sextus Empiricus

@Scortchi qui est correct, merci de le reformuler de manière plus claire pour moi.

— Bogdan Alexandru

@MartijnWeterings no; essentiellement, je demande (en citant le commentaire de Scortchi ci-dessus) une preuve que l'échantillon maximum est suffisant pour la solution sans réellement calculer la solution.

— Bogdan Alexandru

Vous ne cherchez donc pas le théorème de factorisation de Fisher Neyman comme preuve?

— Sextus Empiricus

Réponses:

Probabilité

Les problèmes courants en théorie des probabilités se réfèrent à la probabilité des observations étant donné un certain modèle et étant donné les paramètres (appelons-les ) impliqués. Par exemple, les probabilités de situations spécifiques dans les jeux de cartes ou les jeux de dés sont souvent très simples. $x_1, x_2, ... , x_n$ $\theta$

Cependant, dans de nombreuses situations pratiques, nous avons affaire à une situation inverse ( statistiques inférentielles ). C'est-à-dire: l'observation est donnée et maintenant le modèle est inconnu , ou du moins nous ne connaissons pas certains paramètres . $x_1, x_2, ... , x_k$ $\theta$

Dans ce type de problèmes, nous nous référons souvent à un terme appelé la probabilité des paramètres, , qui est un taux de croyance en un paramètre spécifique étant donné les observations . Ce terme est exprimé comme étant proportionnel à la probabilité des observations supposant qu'un paramètre de modèle serait hypothétiquement vrai. $\mathcal{L(\theta)}$ $\theta$ $x_1, x_2, .. x_k$ $x_1, x_2, .. x_k$ $\theta$

L (θ, x_{1}, x_{2}, . . x_{k}) \propto probability observations x_{1}, x_{2}, . . x_{k} given θ

$\mathcal{L}(\theta,x_1, x_2, .. x_k) \propto \text{probability observations $x_1, x_2, .. x_k$ given $\theta$ }$

Pour une valeur de paramètre donnée plus une certaine observation est probable (par rapport à la probabilité avec d'autres valeurs de paramètre), plus l'observation prend en charge ce paramètre particulier (ou théorie / hypothèse qui suppose ce paramètre) . Une probabilité (relative) élevée renforcera nos croyances sur cette valeur de paramètre (il y a beaucoup plus de philosophie à dire à ce sujet). $\theta$ $x_1, x_2, .. x_n$

Probabilité dans le problème des chars allemands

Maintenant, pour le problème des chars allemands, la fonction de vraisemblance pour un ensemble d'échantillons est: $x_1, x_2, .. x_k$

L (θ, x_{1}, x_{2}, . . x_{k}) = Pr (x_{1}, x_{2}, . . x_{k}, θ) = {\begin{cases} 0 & if max (x_{1}, x_{2}, . . x_{k}) > θ \\ {(\binom{θ}{k})}^{- 1} & if max (x_{1}, x_{2}, . . x_{k}) \leq θ, \end{cases}

$\mathcal{L}(\theta,x_1, x_2, .. x_k ) = \Pr(x_1, x_2, .. x_k, \theta) = \begin{cases} 0 &\text{if } \max(x_1, x_2, .. x_k) > \theta \\ {{\theta}\choose{k}}^{-1} &\text{if } \max(x_1, x_2, .. x_k) \leq \theta, \end{cases}$

Que vous observiez des échantillons {1, 2, 10} ou des échantillons {8, 9, 10} ne devrait pas avoir d'importance lorsque les échantillons sont considérés à partir d'une distribution uniforme avec le paramètre . Les deux échantillons sont tout aussi probables avec une probabilité et en utilisant l'idée de vraisemblance, l'un des échantillons n'en dit pas plus sur le paramètre que l'autre échantillon. $\theta$ ${{\theta}\choose{3}}^{-1}$ $\theta$

Les valeurs élevées {8, 9, 10} peuvent vous faire penser / croire que devrait être plus élevé. Mais, c'est seulement la valeur {10} qui vous donne vraiment des informations pertinentes sur la probabilité de (la valeur 10 vous indique que sera dix ou plus, les autres valeurs 8 et 9 ne contribuent en rien à cette information ). $\theta$ $\theta$ $\theta$

Théorème de factorisation de Fisher Neyman

Ce théorème vous dit qu'une certaine statistique (c'est-à-dire une fonction des observations, comme la moyenne, la médiane ou comme dans le problème du réservoir allemand le maximum) est suffisante (contient toutes les informations) lorsque vous pouvez factoriser, dans la fonction de vraisemblance, les termes qui dépendent des autres observations , de sorte que ce facteur ne dépend pas à la fois du paramètre et (et la partie de la fonction de vraisemblance qui relie les données aux valeurs des paramètres hypothétiques ne dépend que de la statistique mais pas de l'ensemble des données / observations). $T(x_1, x_2, … , x_k)$ $x_1, x_2, … , x_k$ $\theta$ $x_1, x_2, … , x_k$

Le cas du problème des chars allemands est simple. Vous pouvez voir ci-dessus que l'expression entière de la vraisemblance ci-dessus ne dépend déjà que de la statistique et le reste des valeurs n'a pas d'importance. $\max(x_1, x_2, .. x_k)$ $x_1, x_2, .. x_k$

Petit jeu comme exemple

Disons que nous jouons le jeu suivant à plusieurs reprises: est lui-même une variable aléatoire et dessinée avec une probabilité égale soit 100 ou 110. Ensuite, nous dessinons un échantillon . $\theta$ $x_1,x_2,...,x_k$

Nous voulons choisir une stratégie pour deviner , basée sur les observés qui maximisent notre probabilité d'avoir la bonne estimation de . $\theta$ $x_1,x_2,...,x_k$ $\theta$

La bonne stratégie sera de choisir 100 sauf si l'un des nombres de l'échantillon est> 100.

Nous pourrions être tentés de choisir la valeur de paramètre 110 déjà lorsque la plupart des ont tendance à être toutes des valeurs élevées proches de cent (mais aucune exactement au-dessus de cent), mais ce serait faux. La probabilité d'une telle observation sera plus grande lorsque la valeur réelle du paramètre est 100 que lorsqu'elle est 110. Donc, si nous supposons, dans une telle situation, 100 comme valeur du paramètre, nous serons moins susceptibles de faire une erreur (car le situation avec ces valeurs élevées proches de cent, mais toujours en dessous, se produit plus souvent dans le cas où la vraie valeur est 100 plutôt que dans le cas où la vraie valeur est 110). $x_1,x_2,...,x_k$

— Sextus Empiricus
source

Génial, exactement ce dont j'avais besoin! Juste un commentaire sur votre dernière parenthèse: vous dites "ces valeurs élevées proches de cent se produisent plus souvent ...", ce que je comprends pourquoi c'est vrai, mais juste pour clarifier: toute valeur entre 1 et 100 est plus susceptible de se produire quand si le paramètre est 100 (essentiellement la probabilité pour chaque nombre dans 1-100 est 1 / paramètre).

— Bogdan Alexandru

De plus, maintenant votre commentaire initial à mon message est logique - si j'avais su appliquer ces concepts, votre commentaire aurait été exactement l'indice que j'aurais eu besoin pour obtenir la preuve. Merci encore!

— Bogdan Alexandru

@BogdanAlexandru vous avez raison; c'est vrai pour toute valeur entre 1 et 100. C'est l'idée contre-intuitive, nous avons tendance à penser que des valeurs observées plus élevées sont en quelque sorte plus de preuve pour une valeur de paramètre que des valeurs observées faibles, mais pour tout nombre est également probable et ne contribue / ne devrait donc rien contribuer à nos croyances sur le paramètre du modèle ( Sauf la valeur maximale que nous observons. Mais même dans le jeu que j'ai fait avec seulement un choix entre deux valeurs. Il est tel que même le maximum ne donne pas plus d'informations quand il est supérieur ou inférieur, sauf autour de la limite des cent).

— Sextus Empiricus

Mon commentaire initial était peut-être trop lourd, mais je ne faisais que piquer pour voir quel type de réponse était nécessaire. Surtout, je trouve le terme `` preuve '' un peu fort et je me demandais si vous cherchiez simplement le théorème de factorisation (ce serait une question à laquelle vous répondriez oui si vous ne connaissiez pas ce théorème) ou si vous cherchiez quelque chose de plus vague et philosophique, comme même remettre en question des concepts de statistiques / probabilités et aller au-delà d'un tel théorème pour chercher un autre type de "preuve".

— Sextus Empiricus

Bonne lecture de mes intentions alors! Merci encore.

— Bogdan Alexandru

Vous n'avez pas présenté une formulation précise du «problème», donc ce n'est pas exactement clair ce que vous demandez à prouver. D'un point de vue bayésien, la probabilité postérieure dépend de toutes les données. Cependant, chaque observation d'un numéro de série particulier soutiendra le plus ce numéro. Autrement dit, étant donné toute observation , le rapport de cotes entre le postérieur et le précédent sera plus élevé pour l'hypothèse "le nombre réel de réservoirs est " que pour "le nombre réel de réservoirs est [nombre autre que ]". Ainsi, si nous commençons par un a priori uniforme, alors aura le postérieur le plus élevé après avoir vu cette observation. $n$ $n$ $n$ $n$

Considérons un cas où nous avons le point de données et les hypothèses . Évidemment, le postérieur pour est nul. Et nos postérieurs pour seront plus grands que leurs antérieurs. La raison en est que dans le raisonnement bayésien, l'absence de preuve est une preuve d'absence. Chaque fois que nous avons une opportunité où nous aurions pu faire une observation qui aurait diminué notre probabilité, mais non, la probabilité augmente. Puisque nous aurions pu voir , ce qui aurait mis nos postérieurs pour à zéro, le fait que nous ne les ayons pas vu signifie que nous devrions augmenter nos postérieurs pour $13$ $N=10,13,15$ $N=10$ $N=13,15$ $16$ $N=13,15$ $N=13,15$ . Mais notez que plus le nombre est petit, plus nous aurions pu voir de chiffres qui auraient exclu ce nombre. Pour , nous avons rejeté cette hypothèse après avoir vu . Mais pour , il aurait fallu au moins pour rejeter l'hypothèse. Étant donné que l'hypothèse est plus falsifiable que , le fait que nous n'ayons pas falsifié est davantage une preuve de , que de ne pas falsifier est une preuve de . $N=13$ $14,15,16,...$ $N=15$ $16$ $N=13$ $N=15$ $N=13$ $N=13$ $N=15$ $N=15$

Ainsi, chaque fois que nous voyons un point de données, il remet à zéro le postérieur de tout ce qui se trouve en dessous et augmente le postérieur de tout le reste, avec de plus petits nombres obtenant le plus grand coup de pouce. Ainsi, le nombre qui obtient le plus gros coup de pouce global sera le plus petit nombre dont la partie postérieure n'a pas été mise à zéro, c'est-à-dire la valeur maximale des observations.

Les nombres inférieurs au maximum affectent l' ampleur de l' augmentation du maximum, mais cela n'affecte pas la tendance générale du maximum à obtenir le plus grand boost. Prenons l'exemple ci-dessus, où nous en avons déjà vu . Si le prochain chiffre que nous voyons est , quel effet cela aura-t-il? Cela aide plus que , mais les deux nombres ont déjà été rejetés, donc ce n'est pas pertinent. Cela aide plus que , mais déjà été aidés de plus de , donc cela n'affecte pas le nombre qui a été le plus aidé. $13$ $5$ $5$ $6$ $13$ $15$ $13$ $15$

— Accumulation
source

Cet exemple dépend beaucoup de la situation et les déclarations ne sont pas générales. Par exemple, si le prieur est de 50% pour 13 et 50% pour 15 alors l'observation de 13 n'est pas telle que "nos postérieurs pour N = 13, 15 seront plus grands que leurs précédents" Les observations peuvent diminuer le postérieur par rapport au précédent .

— Sextus Empiricus

De plus, l'observation de nombres supplémentaires peut modifier l'inférence. Dans le cas "si le prochain nombre que nous voyons est 5 ..." alors le postérieur changera toujours, même lorsque les nombres ont déjà été "aidés", des nombres supplémentaires peuvent augmenter ce "aider" (par exemple lorsque vous échantillonnez tous les nombres 1,2, ... 12, 13 alors cela augmentera le postérieur de 13 de plus que lorsque vous échantillonnez seulement 13)

— Sextus Empiricus