Les concepts statistiques et mathématiques sont exactement les mêmes, sachant que "famille" est un terme mathématique générique avec des variations techniques adaptées à différentes circonstances:
Une famille paramétrique est une courbe (ou surface ou autre généralisation de dimension finie de celle-ci) dans l'espace de toutes les distributions.
Le reste de cet article explique ce que cela signifie. En passant, je ne pense pas que tout cela soit controversé, mathématiquement ou statistiquement (à l'exception d'un problème mineur qui est noté ci-dessous). À l'appui de cette opinion, j'ai fourni de nombreuses références (principalement des articles Wikipedia).
Cette terminologie des «familles» a tendance à être utilisée lors de l'étude des classes CY de fonctions dans un ensemble Y ou «cartes». Étant donné un domaine X , une famille F de cartes sur X paramétrée par un ensemble Θ (les "paramètres") est une fonction
F:X×Θ→Y
pour laquelle (1) pour chaque θ∈Θ , la fonction Fθ:X→Y donnée par Fθ(x)=F(x,θ) est dans CY et (2) F elle-même a certaines "belles" propriétés.
L'idée est que nous voulons faire varier les fonctions de X à Y de manière "lisse" ou contrôlée. La propriété (1) signifie que chaque θ désigne une telle fonction, tandis que les détails de la propriété (2) captureront le sens dans lequel un "petit" changement de θ induit un changement suffisamment "petit" de Fθ .
Un exemple mathématique standard, proche de celui mentionné dans la question, est l' homotopie . Dans ce cas, CY est la catégorie des cartes continues des espaces topologiques X dans l'espace topologique Y ; Θ=[0,1]⊂R est l'intervalle unitaire avec sa topologie habituelle, et nous exigeons que F soit une carte continue du produit topologique X×Θ dans à F 1. "Lorsque X =Y . Elle peut être considérée comme une "déformation continue de la carte F0F1X=[0,1] est lui-même un intervalle, ces cartes sont descourbes en Y et l'homotopie est une déformation régulière d'une courbe à l'autre.
Pour les applications statistiques, CY est l'ensemble de toutes les distributions sur R (ou, en pratique, sur Rn pour certains n , mais pour garder l'exposition simple, je me concentrerai sur n=1 ). On peut l'identifier avec l'ensemble de toutes les fonctions càdlàg non décroissantes R→[0,1] où la fermeture de leur gamme comprend à la fois 0 et 1 : ce sont les fonctions de distribution cumulées, ou simplement les fonctions de distribution. Ainsi, X=R etY=[0,1] .
Une famille de distributions est un sous - ensemble de CY . Un autre nom pour une famille est modèle statistique. Il se compose de toutes les distributions que nous supposons régir nos observations, mais nous ne savons pas autrement quelle est la distribution réelle.
- Une famille peut être vide.
- CY lui-même est une famille.
- Une famille peut être constituée d'une seule distribution ou d'un nombre fini d'entre elles.
Ces caractéristiques abstraites de la théorie des ensembles ont relativement peu d'intérêt ou d'utilité. Ce n'est que lorsque nous considérons une structure mathématique supplémentaire (pertinente) sur que ce concept devient utile. Mais quelles propriétés de C Y présentent un intérêt statistique? Certains qui apparaissent fréquemment sont:CYCY
est unensemble convexe: étant donné deux distributions F , G ∈ C Y , nous pouvons former ladistributiondumélange(1-t) F +t G ∈Ypour toutt∈[0,1]. C'est une sorte d '"homotopie" deFàGCYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG .
De grandes parties de prennent en charge diverses pseudo-métriques, telles que la divergence Kullback-Leibler ou la métrique Fisher Information étroitement liée.CY
a une structure additif: correspondant à toutesdeux distributionsFetGest leur somme, F ⋆ G .CYFGF⋆G
prend en charge de nombreuses fonctions utiles et naturelles, souvent appelées «propriétés». Ceux-ci incluent tout quantile fixe (comme la médiane) ainsi que lescumulants.CY
est un sous-ensemble d'unespace de fonction. En tant que tel, il hérite de nombreuses métriques utiles, telles que lanorme sup(norme L ∞ ) donnée par | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Naturelles actions de groupe sur induisent des actions sur C Y . Les actions les plus courantes sont les traductions T μ : x → x + μ et les échelles S σ : x → x σ pour σ > 0 . L'effet que cela a sur une distribution est d'envoyer F à la distribution donnée par F μ , σ ( x ) = F ( ( x - μ /RCY Tμ:x→x+μ Sσ:x→xσσ>0FFμ,σ(x)=F((x−μ)/σ) . Ceux-ci conduisent aux concepts de familles à l'échelle de l'emplacement et à leurs généralisations. (Je ne fournis pas de référence, car les recherches approfondies sur le Web présentent diverses définitions: ici, au moins, il peut y avoir une petite controverse.)
Les propriétés importantes dépendent du problème statistique et de la façon dont vous comptez analyser les données. Aborder toutes les variations suggérées par les caractéristiques précédentes prendrait trop de place pour ce médium. Concentrons-nous sur une application importante commune.
Prenons, par exemple, le maximum de vraisemblance. Dans la plupart des applications, vous voudrez pouvoir utiliser le calcul pour obtenir une estimation. Pour que cela fonctionne, vous devez pouvoir "prendre des dérivés" dans la famille.
( Technique de côté: La manière habituelle dans laquelle ceci est accompli est de sélectionner un nom de domaine pour d ≥ 0 et spécifier un continu, localement inversible fonction p de Θ en C Y (ce qui signifie que pour chaque. & Thetav ∈ Θ il existe une boule B ( θ , ϵ ) , avec ϵ > 0 pour laquelle p ∣ B ( θ , ϵ )Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 est un à un. En d'autres termes, si nous modifions θ d'une quantité suffisamment petite, nous obtiendrons toujours une distribution différente.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
Par conséquent, dans la plupart des applications ML, nous exigeons que soit continu (et, espérons-le, presque partout différentiable) dans le composant Θ . (Sans continuité, la maximisation de la probabilité devient généralement un problème insoluble.) Cela conduit à la définition orientée vers la probabilité suivante d'une famille paramétrique :pΘ
Une famille paramétrique de distributions (univariées) est une carte localement inversible avec Θ ⊂ R n , pour laquelle (a) chaque F θ est une fonction de distribution et (b) pour chaque x ∈ R , la fonction L x : θ → [ 0 , 1 ] donnée par L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) est continu et presque partout différenciable.
Notez qu'une famille paramétrique est plus que la simple collection de F θ : elle inclut également la manière spécifique dont les valeurs des paramètres θ correspondent aux distributions.FFθθ
Terminons avec quelques exemples illustratifs.
Soit l'ensemble de toutes les distributions normales. Comme indiqué, ce n'est pas une famille paramétrique: c'est juste une famille. Pour être paramétrique, il faut choisir une paramétrisation. Une façon consiste à choisir Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
et à mapper ( μ , σ ) à la distribution normale avec la moyenne μ
et la variance σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
L'ensemble de Poisson distributions(λ) est une famille paramétrique avec .λ∈Θ=(0,∞)⊂R1
The set of Uniform(θ,θ+1) distributions (which features
prominently in many textbook exercises) is a parametric family with
θ∈R1. In this case, Fθ(x)=max(0,min(1,x−θ)) is differentiable in θ except for
θ∈{x,x−1}.
Let F and G be any two distributions. Then F(x,θ)=(1−θ)F(x)+θG(x) is a parametric family for θ∈[0,1]. (Proof: the image of F is a set of distributions and its partial derivative in θ equals −F(x)+G(x) which is defined everywhere.)
The Pearson family is a four-dimensional family, Θ⊂R4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.
The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:Θ→CY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.