Un lemme technique
Je ne sais pas à quel point cela est intuitif, mais le principal résultat technique sous-jacent à votre déclaration du théorème Halmos-Savage est le suivant:
Lemme.
Soit μ une mesure σ -finie sur ( S, A) . Supposons que ℵ est un ensemble de mesures sur ( S, A) telles que pour chaque ν∈ ℵ , ν≪ μ . Il existe alors une suite de nombres non négatifs { cje}∞i = 1 et une suite d'éléments de ℵ , { νje}∞i = 1tel que ∑∞i = 1cje= 1 et ν≪ ∑∞i = 1cjeνje pour chaque ν∈ ℵ .
Ceci est repris textuellement du Théorème A.78 dans la Théorie des Statistiques de Schervish (1995) . Il l'attribue aux Lehmann's Testing Statistical Hypotheses (1986) ( lien vers la troisième édition ), où le résultat est attribué à Halmos et à Savage eux-mêmes (voir Lemme 7). Une autre bonne référence est la statistique mathématique de Shao (deuxième édition, 2003) , où les résultats pertinents sont le lemme 2.1 et le théorème 2.2.
Le lemme ci-dessus indique que si vous commencez avec une famille de mesures dominées par une mesure σ -finie, vous pouvez en fait remplacer la mesure dominante par une combinaison convexe dénombrable de mesures de la famille. Schervish écrit avant d'énoncer le théorème A.78,
"Dans les applications statistiques, nous aurons souvent une classe de mesures, dont chacune est absolument continue par rapport à une seule mesure σ -finie. Ce serait bien si la seule mesure dominante était dans la classe d'origine ou pouvait être construite à partir de la Le théorème suivant résout ce problème. "
Un exemple concret
Supposons que nous prenions une mesure d'une quantité X que nous croyons répartie uniformément sur l'intervalle [ 0 , θ ] pour certains inconnus θ > 0 . Dans ce problème statistique, nous considérons implicitement l'ensemble P des mesures de probabilité de Borel sur R composé des distributions uniformes à tous les intervalles de la forme [ 0 , θ ] . Autrement dit, si λ désigne la mesure de Lebesgue et, pour θ > 0 , Pθ désigne l' Uniforme( [ 0 , θ ] ) distribution (c'est-à-dire
Pθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
pour chaque BorelA⊆R ), alors nous avons simplement
P={Pθ:θ>0}.
Ceci est l'ensemble des distributions de candidats pour notre mesureX .
La famille P est clairement dominée par la mesure de Lebesgue λ (qui est σ -finie), donc le lemme ci-dessus (avec ℵ=P ) garantit l'existence d'une séquence {ci}∞i=1 de nombres non négatifs sommant à 1 et a séquence {Qi}∞i=1 de distributions uniformes dans P telles que
Pθ≪∑i=1∞ciQi
pour chaque θ>0 . Dans cet exemple, nous pouvons construire de telles séquences de manière explicite!
D'abord, soit (θi)∞i=1 une énumération des nombres rationnels positifs ( cela peut être fait explicitement ), et soit Qi=Pθi pour chaque i . Soit ensuite ci=2−i , de sorte que ∑∞i=1ci=1 . Je prétends que cette combinaison de {ci}∞i=1 et {Qi}∞i=1 fonctionne.
Pour le voir, fixons θ>0 et soit A un sous-ensemble borel de R tel que ∑∞i=1ciQi(A)=0 . Nous devons montrer que Pθ(A)=0 . Puisque ∑∞i=1ciQi(A)=0 et que chaque somme n'est pas négative, il s'ensuit que ciQi(A)=0 pour chaquei . De plus, comme chaqueci est positif, il s'ensuit queQi(A)=0 pour chaquei . Autrement dit, pour touti nous avons
Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0.
Puisque chaqueθiest positif, il s'ensuit queλ(A∩[0,θi])=0pour chaquei.
Maintenant, choisissez une sous-séquence {θik}∞k=1 de {θi}∞i=1 qui converge vers θ par le haut (cela peut être fait puisque Q est dense dans R ). Alors A∩[0,θθik]↓A∩[0,θ] comme k→∞ , donc par continuité de mesure nous concluons que
λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,
et doncPθ(A)=0 . Cela prouve la demande.
Ainsi, dans cet exemple, nous avons pu construire explicitement une combinaison convexe dénombrable de mesures de probabilité à partir de notre famille dominée qui domine toujours la famille entière. Le lemme ci-dessus garantit que cela peut être fait pour n'importe quelle famille dominée (au moins tant que la mesure dominante est σ -finie).
Le théorème de Halmos-Savage
Passons maintenant au théorème de Halmos-Savage (pour lequel j'utiliserai une notation légèrement différente de celle de la question en raison de préférences personnelles). Étant donné le théorème de Halmos-Savage, le théorème de factorisation de Fisher-Neyman n'est qu'une application du lemme de Doob-Dynkin et de la règle de chaîne pour les dérivés de Radon-Nikodym!
Théorème de Halmos-Savage.
Soit (X,B,P) un modèle statistique dominé (ce qui signifie que P est un ensemble de mesures de probabilité sur B et qu'il existe une mesure σ -finie μ sur B telle que P≪μ pour tout P∈P ). Soit T:(X,B)→(T,C) une fonction mesurable, où (T,C)est un espace Borel standard. Les éléments suivants sont alors équivalents:
- T est suffisant pourP (ce qui signifie qu'il existe un noyau de probabilitér:B×T→[0,1] tel quer(B,T) est une version deP(B∣T) pour toutB∈B etP∈P ).
- Il existe une séquence {ci}∞i=1 de nombres non négatifs tels que ∑∞i=1ci=1 et une séquence {Pi}∞i=1 de mesures de probabilité dans P telles que P≪P∗ pour tous P∈P , où P∗=∑∞i=1ciPi, et pour chaque P∈P il existe une version T mesurable de dP/dP∗ .
Preuve.
Par le lemme ci-dessus, nous pouvons immédiatement remplacer μ par P∗=∑∞i=1ciPi pour une séquence {ci}∞i=1 de nombres non négatifs tels que ∑∞i=1ci=1 et a séquence {Pi}∞i=1 de mesures de probabilité de P .
(1. implique 2.) Supposons que T soit suffisant. Ensuite , nous devons montrer qu'il ya des T versions -mesurables de dP/dP∗ pour tout P∈P . Soit r le noyau de probabilité dans l'énoncé du théorème. Pour chaque A∈σ(T) et B∈B nous avons
P∗(A∩B)=∑i=1∞ciPi(A∩B)=∑i=1∞ci∫APi(B∣T)dPi=∑i=1∞ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗.
Ainsir(B,T)est une version deP∗(B∣T)pour toutB∈B.
Pour chaque P∈P , soit fP une version de la dérivée de Radon-Nikodym dP/dP∗ sur l'espace mesurable (X,σ(T)) (donc en particulier fP est T -mesurable). Alors pour tout B∈B et P∈P on a
P(B)=∫XP(B∣T)dP=∫Xr(B,T)dP=∫Xr(B,T)fPdP∗=∫XP∗(B∣T)fPdP∗=∫XEP∗[1BfP∣T]dP∗=∫BfPdP∗.
Ainsi, en fait,fPest uneversion mesurable enTdedP/dP∗sur(X,B). Cela prouve que la première condition du théorème implique la seconde.
(2. implique 1.) Supposons que l' on peut choisir une T Version -mesurables fP de dP/dP∗ pour chaque P∈P . Pour chaque B∈B , soit r(B,t) une version particulière de P∗(B∣T=t) (par exemple, r(B,t) est une fonction telle que r(B,T) est une version deP∗(B∣T) ). Puisque(T,C) est un espace Borel standard, nous pouvons choisirr d'une manière qui en fait un noyau de probabilité (voir, par exemple, le théorème B.32 dansTheory of Statistics deSchervish(1995)). Nous allons montrer quer(B,T) est une version deP(B∣T) pour toutP∈P et toutB∈B . Soit doncA∈σ(T) etB∈B soient donnés. Alors pour toutP∈P on a
P(A∩B)=∫A1BfPdP∗=∫AEP∗[1BfP∣T]dP∗=∫AP∗(B∣T)fPdP∗=∫Ar(B,T)fPdP∗=∫Ar(B,T)dP.
Cela montre quer(B,T)est une version deP(B∣T)pour toutP∈Pet toutB∈B, et la preuve est faite.
Sommaire.
Le résultat technique important qui sous-tend le théorème de Halmos-Savage tel que présenté ici est le fait qu'une famille dominée de mesures de probabilité est en réalité dominée par une combinaison convexe dénombrable de mesures de probabilité de cette famille. Compte tenu de ce résultat, le reste du théorème de Halmos-Savage n'est principalement que des manipulations avec les propriétés de base des dérivés de Radon-Nikodym et les attentes conditionnelles.