Le théorème de Halmos-Savage dit que pour un modèle statistique dominé $(\Omega, \mathscr A, \mathscr P)$ une statistique $T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A')$ est suffisante si (et seulement si) pour tout $\{P \in \mathscr{P} \}$ il existe une version mesurable en $T$ du dérivé de Radon Nikodym $\frac{dP}{dP*}$ où $dP*$ est une mesure privilégiéetelle sorte que $P*=\sum_{i=1}^\infty P_i c_i$ pour $c_i >0, \sum _{i=1}^\infty c_i =1$ et $P_i \in \mathscr P$ .

J'ai essayé de comprendre intuitivement pourquoi le théorème est vrai mais je n'y suis pas parvenu, donc ma question est de savoir s'il existe un moyen intuitif de comprendre le théorème.

— Sébastien
source

Je pense avoir le bon lien ici. Veuillez le vérifier et le supprimer si j'ai fait une erreur.

— gung - Réintégrer Monica

Peut-être aider le lecteur avec la terminologie, par exemple, définir les «modèles statistiques dominés», la « mesurabilité

» et les «mesures privilégiées»

T

$T$

— Carl

Un lemme technique

Je ne sais pas à quel point cela est intuitif, mais le principal résultat technique sous-jacent à votre déclaration du théorème Halmos-Savage est le suivant:

Lemme. Soit $\mu$ une mesure $\sigma$ -finie sur $(S, \mathcal{A})$ . Supposons que $\aleph$ est un ensemble de mesures sur $(S, \mathcal{A})$ telles que pour chaque $\nu \in \aleph$ , $\nu \ll \mu$ . Il existe alors une suite de nombres non négatifs $\{c_i\}_{i=1}^\infty$ et une suite d'éléments de $\aleph$ , $\{\nu_i\}_{i=1}^\infty$ tel que $\sum_{i=1}^\infty c_i = 1$ et $\nu \ll \sum_{i=1}^\infty c_i \nu_i$ pour chaque $\nu \in \aleph$ .

Ceci est repris textuellement du Théorème A.78 dans la Théorie des Statistiques de Schervish (1995) . Il l'attribue aux Lehmann's Testing Statistical Hypotheses (1986) ( lien vers la troisième édition ), où le résultat est attribué à Halmos et à Savage eux-mêmes (voir Lemme 7). Une autre bonne référence est la statistique mathématique de Shao (deuxième édition, 2003) , où les résultats pertinents sont le lemme 2.1 et le théorème 2.2.

Le lemme ci-dessus indique que si vous commencez avec une famille de mesures dominées par une mesure $\sigma$ -finie, vous pouvez en fait remplacer la mesure dominante par une combinaison convexe dénombrable de mesures de la famille. Schervish écrit avant d'énoncer le théorème A.78,

"Dans les applications statistiques, nous aurons souvent une classe de mesures, dont chacune est absolument continue par rapport à une seule mesure $\sigma$ -finie. Ce serait bien si la seule mesure dominante était dans la classe d'origine ou pouvait être construite à partir de la Le théorème suivant résout ce problème. "

Un exemple concret

Supposons que nous prenions une mesure d'une quantité $X$ que nous croyons répartie uniformément sur l'intervalle $[0, \theta]$ pour certains inconnus $\theta > 0$ . Dans ce problème statistique, nous considérons implicitement l'ensemble $\mathcal{P}$ des mesures de probabilité de Borel sur $\mathbb{R}$ composé des distributions uniformes à tous les intervalles de la forme $[0, \theta]$ . Autrement dit, si $\lambda$ désigne la mesure de Lebesgue et, pour $\theta > 0$ , $P_\theta$ désigne l' $\operatorname{Uniform}([0, \theta])$ distribution (c'est-à-dire

P_{θ} (A) = \frac{1}{θ} λ (A \cap [0, θ]) = \int_{A} \frac{1}{θ} 1_{[0, θ]} (x) d x

$P_\theta(A) = \frac{1}{\theta} \lambda(A \cap [0, \theta]) = \int_A \frac{1}{\theta} \mathbf{1}_{[0, \theta]}(x) \, dx$ pour chaque Borel

A \subseteq R

$A \subseteq \mathbb{R}$ ), alors nous avons simplement

P = {P_{θ} : θ > 0} .

$\mathcal{P} = \{P_\theta : \theta > 0\}.$ Ceci est l'ensemble des distributions de candidats pour notre mesure

X

$X$ .

La famille $\mathcal{P}$ est clairement dominée par la mesure de Lebesgue $\lambda$ (qui est $\sigma$ -finie), donc le lemme ci-dessus (avec $\aleph = \mathcal{P}$ ) garantit l'existence d'une séquence $\{c_i\}_{i=1}^\infty$ de nombres non négatifs sommant à $1$ et a séquence $\{Q_i\}_{i=1}^\infty$ de distributions uniformes dans $\mathcal{P}$ telles que

P_{θ} ≪ \sum_{i = 1}^{\infty} c_{i} Q_{i}

$P_\theta \ll \sum_{i=1}^\infty c_i Q_i$ pour chaque

θ > 0

$\theta > 0$ . Dans cet exemple, nous pouvons construire de telles séquences de manière explicite!

D'abord, soit $(\theta_i)_{i=1}^\infty$ une énumération des nombres rationnels positifs ( cela peut être fait explicitement ), et soit $Q_i = P_{\theta_i}$ pour chaque $i$ . Soit ensuite $c_i = 2^{-i}$ , de sorte que $\sum_{i=1}^\infty c_i = 1$ . Je prétends que cette combinaison de $\{c_i\}_{i=1}^\infty$ et $\{Q_i\}_{i=1}^\infty$ fonctionne.

Pour le voir, fixons $\theta > 0$ et soit $A$ un sous-ensemble borel de $\mathbb{R}$ tel que $\sum_{i=1}^\infty c_i Q_i(A) = 0$ . Nous devons montrer que $P_\theta(A) = 0$ . Puisque $\sum_{i=1}^\infty c_i Q_i(A) = 0$ et que chaque somme n'est pas négative, il s'ensuit que $c_i Q_i(A) = 0$ pour chaque $i$ . De plus, comme chaque $c_i$ est positif, il s'ensuit que $Q_i(A) = 0$ pour chaque $i$ . Autrement dit, pour tout $i$ nous avons

Q_{i} (A) = P_{θ_{i}} (A) = \frac{1}{θ_{i}} λ (A \cap [0, θ_{i}]) = 0.

$Q_i(A) = P_{\theta_i}(A) = \frac{1}{\theta_i} \lambda(A \cap [0, \theta_i]) = 0.$ Puisque chaque

θ_{i}

$\theta_i$ est positif, il s'ensuit que

λ (A \cap [0, θ_{i}]) = 0

$\lambda(A \cap [0, \theta_i]) = 0$ pour chaque

i

$i$ .

Maintenant, choisissez une sous-séquence $\{\theta_{i_k}\}_{k=1}^\infty$ de $\{\theta_i\}_{i=1}^\infty$ qui converge vers $\theta$ par le haut (cela peut être fait puisque $\mathbb{Q}$ est dense dans $\mathbb{R}$ ). Alors $A \cap [0, \theta_{\theta_{i_k}}] \downarrow A \cap [0, \theta]$ comme $k \to \infty$ , donc par continuité de mesure nous concluons que

λ (A \cap [0, θ]) = lim_{k \to \infty} λ (A \cap [0, θ_{i_{k}}]) = 0,

$\lambda(A \cap [0, \theta]) = \lim_{k \to \infty} \lambda(A \cap [0, \theta_{i_k}]) = 0,$ et donc

P_{θ} (A) = 0

$P_\theta(A) = 0$ . Cela prouve la demande.

Ainsi, dans cet exemple, nous avons pu construire explicitement une combinaison convexe dénombrable de mesures de probabilité à partir de notre famille dominée qui domine toujours la famille entière. Le lemme ci-dessus garantit que cela peut être fait pour n'importe quelle famille dominée (au moins tant que la mesure dominante est $\sigma$ -finie).

Le théorème de Halmos-Savage

Passons maintenant au théorème de Halmos-Savage (pour lequel j'utiliserai une notation légèrement différente de celle de la question en raison de préférences personnelles). Étant donné le théorème de Halmos-Savage, le théorème de factorisation de Fisher-Neyman n'est qu'une application du lemme de Doob-Dynkin et de la règle de chaîne pour les dérivés de Radon-Nikodym!

Théorème de Halmos-Savage. Soit $(\mathcal{X}, \mathcal{B}, \mathcal{P})$ un modèle statistique dominé (ce qui signifie que $\mathcal{P}$ est un ensemble de mesures de probabilité sur $\mathcal{B}$ et qu'il existe une mesure $\sigma$ -finie $\mu$ sur $\mathcal{B}$ telle que $P \ll \mu$ pour tout $P \in \mathcal{P}$ ). Soit $T : (\mathcal{X}, \mathcal{B}) \to (\mathcal{T}, \mathcal{C})$ une fonction mesurable, où $(T, \mathcal{C})$ est un espace Borel standard. Les éléments suivants sont alors équivalents:

$T$ est suffisant pour $\mathcal{P}$ (ce qui signifie qu'il existe un noyau de probabilité $r : \mathcal{B} \times \mathcal{T} \to [0, 1]$ tel que $r(B, T)$ est une version de $P(B \mid T)$ pour tout $B \in \mathcal{B}$ et $P \in \mathcal{P}$ ).

Il existe une séquence $\{c_i\}_{i=1}^\infty$ de nombres non négatifs tels que $\sum_{i=1}^\infty c_i = 1$ et une séquence $\{P_i\}_{i=1}^\infty$ de mesures de probabilité dans $\mathcal{P}$ telles que $P \ll P^*$ pour tous $P \in \mathcal{P}$ , où $P^* = \sum_{i=1}^\infty c_i P_i$ , et pour chaque $P \in \mathcal{P}$ il existe une version $T$ mesurable de $dP/dP^*$ .

Preuve. Par le lemme ci-dessus, nous pouvons immédiatement remplacer $\mu$ par $P^* = \sum_{i=1}^\infty c_i P_i$ pour une séquence $\{c_i\}_{i=1}^\infty$ de nombres non négatifs tels que $\sum_{i=1}^\infty c_i = 1$ et a séquence $\{P_i\}_{i=1}^\infty$ de mesures de probabilité de $\mathcal{P}$ .

(1. implique 2.) Supposons que $T$ soit suffisant. Ensuite , nous devons montrer qu'il ya des $T$ versions -mesurables de $dP/dP^*$ pour tout $P \in \mathcal{P}$ . Soit $r$ le noyau de probabilité dans l'énoncé du théorème. Pour chaque $A \in \sigma(T)$ et $B \in \mathcal{B}$ nous avons

\begin{aligned} P^{*} (A \cap B) & = \sum_{i = 1}^{\infty} c_{i} P_{i} (A \cap B) \\ = \sum_{i = 1}^{\infty} c_{i} \int_{A} P_{i} (B ∣ T) d P_{i} \\ = \sum_{i = 1}^{\infty} c_{i} \int_{A} r (B, T) d P_{i} \\ = \int_{A} r (B, T) d P^{*} . \end{aligned}

$\begin{aligned} P^*(A \cap B) &= \sum_{i=1}^\infty c_i P_i(A \cap B) \\ &= \sum_{i=1}^\infty c_i \int_A P_i(B \mid T) \, dP_i \\ &= \sum_{i=1}^\infty c_i \int_A r(B, T) \, dP_i \\ &= \int_A r(B, T) \, dP^*. \end{aligned}$ Ainsi

r (B, T)

$r(B, T)$ est une version de

P^{*} (B ∣ T)

$P^*(B \mid T)$ pour tout

B \in B

$B \in \mathcal{B}$ .

Pour chaque $P \in \mathcal{P}$ , soit $f_P$ une version de la dérivée de Radon-Nikodym $dP/dP^*$ sur l'espace mesurable $(\mathcal{X}, \sigma(T))$ (donc en particulier $f_P$ est $T$ -mesurable). Alors pour tout $B \in \mathcal{B}$ et $P \in \mathcal{P}$ on a

\begin{aligned} P (B) & = \int_{X} P (B ∣ T) d P \\ = \int_{X} r (B, T) d P \\ = \int_{X} r (B, T) f_{P} d P^{*} \\ = \int_{X} P^{*} (B ∣ T) f_{P} d P^{*} \\ = \int_{X} E_{P^{*}} [1_{B} f_{P} ∣ T] d P^{*} \\ = \int_{B} f_{P} d P^{*} . \end{aligned}

$\begin{aligned} P(B) &= \int_{\mathcal{X}} P(B \mid T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) \, dP \\ &= \int_{\mathcal{X}} r(B, T) f_P \, dP^* \\ &= \int_{\mathcal{X}} P^*(B \mid T) f_P \, dP^* \\ &= \int_{\mathcal{X}} E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_B f_P \, dP^*. \end{aligned}$ Ainsi, en fait,

f_{P}

$f_P$ est uneversion mesurable en

T

$T$ de

d P / d P^{*}

$dP/dP^*$ sur

(X, B)

$(\mathcal{X}, \mathcal{B})$ . Cela prouve que la première condition du théorème implique la seconde.

(2. implique 1.) Supposons que l' on peut choisir une $T$ Version -mesurables $f_P$ de $dP/dP^*$ pour chaque $P \in \mathcal{P}$ . Pour chaque $B \in \mathcal{B}$ , soit $r(B, t)$ une version particulière de $P^*(B \mid T = t)$ (par exemple, $r(B, t)$ est une fonction telle que $r(B, T)$ est une version de $P^*(B \mid T)$ ). Puisque $(T, \mathcal{C})$ est un espace Borel standard, nous pouvons choisir $r$ d'une manière qui en fait un noyau de probabilité (voir, par exemple, le théorème B.32 dansTheory of Statistics deSchervish(1995)). Nous allons montrer que $r(B, T)$ est une version de $P(B \mid T)$ pour tout $P \in \mathcal{P}$ et tout $B \in \mathcal{B}$ . Soit donc $A \in \sigma(T)$ et $B \in \mathcal{B}$ soient donnés. Alors pour tout $P \in \mathcal{P}$ on a

\begin{aligned} P (A \cap B) & = \int_{A} 1_{B} f_{P} d P^{*} \\ = \int_{A} E_{P^{*}} [1_{B} f_{P} ∣ T] d P^{*} \\ = \int_{A} P^{*} (B ∣ T) f_{P} d P^{*} \\ = \int_{A} r (B, T) f_{P} d P^{*} \\ = \int_{A} r (B, T) d P . \end{aligned}

$\begin{aligned} P(A \cap B) &= \int_A \mathbf{1}_B f_P \, dP^* \\ &= \int_A E_{P^*}[\mathbf{1}_B f_P \mid T] \, dP^* \\ &= \int_A P^*(B \mid T) f_P \, dP^* \\ &= \int_A r(B, T) f_P \, dP^* \\ &= \int_A r(B, T) \, dP. \end{aligned}$ Cela montre que

r (B, T)

$r(B, T)$ est une version de

P (B ∣ T)

$P(B \mid T)$ pour tout

P \in P

$P \in \mathcal{P}$ et tout

B \in B

$B \in \mathcal{B}$ , et la preuve est faite.

Sommaire. Le résultat technique important qui sous-tend le théorème de Halmos-Savage tel que présenté ici est le fait qu'une famille dominée de mesures de probabilité est en réalité dominée par une combinaison convexe dénombrable de mesures de probabilité de cette famille. Compte tenu de ce résultat, le reste du théorème de Halmos-Savage n'est principalement que des manipulations avec les propriétés de base des dérivés de Radon-Nikodym et les attentes conditionnelles.

— Artem Mavrin
source

Compréhension intuitive du théorème de Halmos-Savage

Un lemme technique

Un exemple concret

Le théorème de Halmos-Savage