Définition de famille d'une distribution?

Une famille d'une distribution a-t-elle une définition des statistiques différente de celle des autres disciplines?

En général, une famille de courbes est un ensemble de courbes, chacune étant donnée par une fonction ou paramétrisation dans laquelle un ou plusieurs des paramètres varient. De telles familles sont utilisées, par exemple, pour caractériser les composants électroniques .

Pour les statistiques, une famille selon une source est le résultat de la variation du paramètre de forme. Comment alors comprendre que la distribution gamma a un paramètre de forme et d'échelle et que seule la distribution gamma généralisée a, en plus, un paramètre d'emplacement? Cela fait-il de la famille le résultat de la variation du paramètre de localisation? Selon @whuber, le sens d'une famille est implicitement Une "paramétrisation" d'une famille est une carte continue d'un sous-ensemble de ℝ , avec sa topologie habituelle, dans l'espace des distributions, dont l'image est cette famille. $^n$

Qu'est-ce, en langage simple, qu'une famille de distributions statistiques?

Une question sur les relations entre les propriétés statistiques des distributions d'une même famille a déjà suscité une controverse considérable pour une autre question , il semble donc intéressant d'en explorer le sens.

Que ce ne soit pas nécessairement une simple question naît de son utilisation dans l'expression famille exponentielle , qui n'a rien à voir avec une famille de courbes, mais est liée au changement de forme du PDF d'une distribution par reparamétrisation non seulement des paramètres , mais aussi substitution de fonctions de variables aléatoires indépendantes.

— Carl
source

Par l'expression "famille d'une distribution", voulez-vous dire autre chose "une famille de distributions"? Une famille exponentielle est une famille de distributions (avec certaines propriétés), et interprétant le pdf de chaque distribution comme une courbe, elle correspond même à une famille de courbes, donc les derniers paragraphes semblent confus.

— Juho Kokkala

@JuhoKokkala Cela semble déroutant car le sens de «famille» dépend du contexte. Par exemple, une distribution normale de moyenne inconnue et de variance connue se trouve dans la famille exponentielle. Une distribution normale a un support infini,

(- \infty, + \infty)

$(-\infty,+\infty)$ , et une distribution exponentielle a un support semi-infini,

[0, + \infty)

$[0,+\infty)$ , il n'y a donc pas de famille de courbes pour une distribution exponentielle qui couvre la plage d'une normale distribution, ils n'ont jamais la même forme ...

— Carl

@JuhoKokkala ... et un PDF exponentiel n'a même pas de paramètre de localisation, alors qu'une distribution normale ne peut pas s'en passer. Voir le lien ci-dessus pour les substitutions nécessaires et le contexte dans lequel un pdf normal est dans la famille exponentielle.

— Carl

stats.stackexchange.com/questions/129990/… peut être pertinent. «la distribution normale de la moyenne inconnue et de la variance connue est dans la famille exponentielle» est, à ma connaissance, un abus de terminologie (bien que quelque peu courant). Pour être exact, une famille exponentielle est une famille de distributions avec certaines propriétés. La famille des distributions normales avec une moyenne inconnue et une variance connue est une famille exponentielle; la famille des distributions exponentielles est une autre famille exponentielle, etc.

— Juho Kokkala

@JuhoKokkala: Cette "famille" est si couramment (ab) utilisée, dans un cas particulier, pour signifier "ensemble de familles", cela vaut peut-être la peine d'être tiré dans une autre réponse. (Je ne peux pas penser à d'autres cas - pour une raison quelconque, il semble que personne ne soit enclin à parler de " la famille à l'échelle du lieu".)

— Scortchi - Reinstate Monica

Réponses:

Les concepts statistiques et mathématiques sont exactement les mêmes, sachant que "famille" est un terme mathématique générique avec des variations techniques adaptées à différentes circonstances:

Une famille paramétrique est une courbe (ou surface ou autre généralisation de dimension finie de celle-ci) dans l'espace de toutes les distributions.

Le reste de cet article explique ce que cela signifie. En passant, je ne pense pas que tout cela soit controversé, mathématiquement ou statistiquement (à l'exception d'un problème mineur qui est noté ci-dessous). À l'appui de cette opinion, j'ai fourni de nombreuses références (principalement des articles Wikipedia).

Cette terminologie des «familles» a tendance à être utilisée lors de l'étude des classes $\mathcal C_Y$ de fonctions dans un ensemble $Y$ ou «cartes». Étant donné un domaine $X$ , une famille $\mathcal F$ de cartes sur $X$ paramétrée par un ensemble $\Theta$ (les "paramètres") est une fonction

F : X \times Θ \to Y

$\mathcal F : X\times \Theta\to Y$

pour laquelle (1) pour chaque $\theta\in\Theta$ , la fonction $\mathcal{F}_\theta:X\to Y$ donnée par $\mathcal{F}_\theta(x)=\mathcal{F}(x,\theta)$ est dans $\mathcal{C}_Y$ et (2) $\mathcal F$ elle-même a certaines "belles" propriétés.

L'idée est que nous voulons faire varier les fonctions de $X$ à $Y$ de manière "lisse" ou contrôlée. La propriété (1) signifie que chaque $\theta$ désigne une telle fonction, tandis que les détails de la propriété (2) captureront le sens dans lequel un "petit" changement de $\theta$ induit un changement suffisamment "petit" de $\mathcal{F}_\theta$ .

Un exemple mathématique standard, proche de celui mentionné dans la question, est l' homotopie . Dans ce cas, $\mathcal{C}_Y$ est la catégorie des cartes continues des espaces topologiques $X$ dans l'espace topologique $Y$ ; $\Theta=[0,1]\subset\mathbb{R}$ est l'intervalle unitaire avec sa topologie habituelle, et nous exigeons que $\mathcal{F}$ soit une carte continue du produit topologique $X \times \Theta$ dans à "Lorsque $Y$ . Elle peut être considérée comme une "déformation continue de la carte $\mathcal{F}_0$ $\mathcal{F}_1$ $X=[0,1]$ est lui-même un intervalle, ces cartes sont descourbes en $Y$ et l'homotopie est une déformation régulière d'une courbe à l'autre.

Pour les applications statistiques, $\mathcal{C}_Y$ est l'ensemble de toutes les distributions sur $\mathbb{R}$ (ou, en pratique, sur $\mathbb{R}^n$ pour certains $n$ , mais pour garder l'exposition simple, je me concentrerai sur $n=1$ ). On peut l'identifier avec l'ensemble de toutes les fonctions càdlàg non décroissantes $\mathbb{R}\to [0,1]$ où la fermeture de leur gamme comprend à la fois $0$ et $1$ : ce sont les fonctions de distribution cumulées, ou simplement les fonctions de distribution. Ainsi, $X=\mathbb R$ et $Y=[0,1]$ .

Une famille de distributions est un sous - ensemble de $\mathcal{C}_Y$ . Un autre nom pour une famille est modèle statistique. Il se compose de toutes les distributions que nous supposons régir nos observations, mais nous ne savons pas autrement quelle est la distribution réelle.

Une famille peut être vide.
$\mathcal{C}_Y$ lui-même est une famille.
Une famille peut être constituée d'une seule distribution ou d'un nombre fini d'entre elles.

Ces caractéristiques abstraites de la théorie des ensembles ont relativement peu d'intérêt ou d'utilité. Ce n'est que lorsque nous considérons une structure mathématique supplémentaire (pertinente) sur que ce concept devient utile. Mais quelles propriétés de présentent un intérêt statistique? Certains qui apparaissent fréquemment sont: $\mathcal{C}_Y$ $\mathcal{C}_Y$

est unensemble convexe: étant donné deux distributions , nous pouvons former ladistributiondumélangepour tout. C'est une sorte d '"homotopie" deà $\mathcal{C}_Y$ ${F}, {G}\in \mathcal{C}_Y$ $(1-t){F}+t{G}\in Y$ $t\in[0,1]$ $F$ $G$ .
De grandes parties de prennent en charge diverses pseudo-métriques, telles que la divergence Kullback-Leibler ou la métrique Fisher Information étroitement liée. $\mathcal{C}_Y$
a une structure additif: correspondant à toutesdeux distributionsetest leur somme, . $\mathcal{C}_Y$ $F$ $G$ ${F}\star {G}$
prend en charge de nombreuses fonctions utiles et naturelles, souvent appelées «propriétés». Ceux-ci incluent tout quantile fixe (comme la médiane) ainsi que lescumulants. $\mathcal{C}_Y$
est un sous-ensemble d'unespace de fonction. En tant que tel, il hérite de nombreuses métriques utiles, telles que lanorme sup(norme ) donnée par $\mathcal{C}_Y$ $L^\infty$
$| | F - G | |_{\infty} = sup_{x \in R} | F (x) - G (x) | .$ $||F-G||_\infty = \sup_{x\in\mathbb{R}}|F(x)-G(x)|.$
Naturelles actions de groupe sur induisent des actions sur . Les actions les plus courantes sont les traductions et les échelles pour . L'effet que cela a sur une distribution est d'envoyer à la distribution donnée par $\mathbb R$ $\mathcal{C}_Y$ $T_\mu:x \to x+\mu$ $S_\sigma:x\to x\sigma$ $\sigma\gt 0$ $F$ $F^{\mu,\sigma}(x) = F((x-\mu)/\sigma)$ . Ceux-ci conduisent aux concepts de familles à l'échelle de l'emplacement et à leurs généralisations. (Je ne fournis pas de référence, car les recherches approfondies sur le Web présentent diverses définitions: ici, au moins, il peut y avoir une petite controverse.)

Les propriétés importantes dépendent du problème statistique et de la façon dont vous comptez analyser les données. Aborder toutes les variations suggérées par les caractéristiques précédentes prendrait trop de place pour ce médium. Concentrons-nous sur une application importante commune.

Prenons, par exemple, le maximum de vraisemblance. Dans la plupart des applications, vous voudrez pouvoir utiliser le calcul pour obtenir une estimation. Pour que cela fonctionne, vous devez pouvoir "prendre des dérivés" dans la famille.

( Technique de côté: La manière habituelle dans laquelle ceci est accompli est de sélectionner un nom de domaine pour et spécifier un continu, localement inversible fonction de en (ce qui signifie que pour chaque. il existe une boule , avec pour laquelle $\Theta\subset \mathbb{R}^d$ $d\ge 0$ $p$ $\Theta$ $\mathcal{C}_Y$ $\theta\in\Theta$ $B(\theta, \epsilon)$ $\epsilon\gt 0$ est un à un. En d'autres termes, si nous modifions d'une quantité suffisamment petite, nous obtiendrons toujours une distribution différente.)) $p\mid_{B(\theta,\epsilon)}: B(\theta,\epsilon)\cap \Theta \to \mathcal{C}_Y$ $\theta$

Par conséquent, dans la plupart des applications ML, nous exigeons que soit continu (et, espérons-le, presque partout différentiable) dans le composant . (Sans continuité, la maximisation de la probabilité devient généralement un problème insoluble.) Cela conduit à la définition orientée vers la probabilité suivante d'une famille paramétrique : $p$ $\Theta$

Une famille paramétrique de distributions (univariées) est une carte localement inversible avec , pour laquelle (a) chaque est une fonction de distribution et (b) pour chaque , la fonction donnée par
$F : R \times Θ \to [0, 1],$ $\mathcal{F}:\mathbb{R}\times\Theta \to [0,1],$ $\Theta\subset \mathbb{R}^n$ $\mathcal{F}_\theta$ $x\in\mathbb R$ $\mathcal{L}_x: \theta\to [0,1]$ $\mathcal{L}_x(\theta) = \mathcal{F}(x,\theta)$ est continu et presque partout différenciable.

Notez qu'une famille paramétrique est plus que la simple collection de : elle inclut également la manière spécifique dont les valeurs des paramètres correspondent aux distributions. $\mathcal F$ $\mathcal{F}_\theta$ $\theta$

Terminons avec quelques exemples illustratifs.

Soit l'ensemble de toutes les distributions normales. Comme indiqué, ce n'est pas une famille paramétrique: c'est juste une famille. Pour être paramétrique, il faut choisir une paramétrisation. Une façon consiste à choisir et à mapper à la distribution normale avec la moyenne et la variance . $\mathcal{C}_Y$ $\Theta = \{(\mu,\sigma)\in\mathbb{R}^2\mid \sigma \gt 0\}$ $(\mu,\sigma)$ $\mu$ $\sigma^2$
L'ensemble de Poisson distributions $(\lambda)$ est une famille paramétrique avec . $\lambda\in\Theta=(0,\infty)\subset\mathbb{R}^1$
The set of Uniform $(\theta, \theta+1)$ distributions (which features prominently in many textbook exercises) is a parametric family with $\theta\in\mathbb{R}^1$ . In this case, $F_\theta(x) = \max(0, \min(1, x-\theta))$ is differentiable in $\theta$ except for $\theta\in\{x, x-1\}$ .
Let $F$ and $G$ be any two distributions. Then $\mathcal{F}(x,\theta)=(1-\theta)F(x)+\theta G(x)$ is a parametric family for $\theta\in[0,1]$ . (Proof: the image of $\mathcal F$ is a set of distributions and its partial derivative in $\theta$ equals $-F(x)+G(x)$ which is defined everywhere.)
The Pearson family is a four-dimensional family, $\Theta\subset\mathbb{R}^4$ , which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.
The family $\mathcal{C}_Y$ of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow $\mathcal{C}_Y$ with any topology (whether statistically useful or not) and $p: \Theta\to\mathcal{C}_Y$ is continuous and locally has a continuous inverse, then locally $\mathcal{C}_Y$ must have the same dimension as that of $\Theta$ . However, in all statistically meaningful topologies, $\mathcal{C}_Y$ is infinite dimensional.

— whuber
source

It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.

— Carl

(+1) OK, I slogged through it. So is

F : R \times Θ \to [0, 1]

$\mathcal{F}:\mathbb{R}\times\Theta \to [0,1]$ a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.

— Carl

Doesn't the second sentence of this answer serve that request for simplicity?

— whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.

— Carl

I have accepted your answer. You have enough information in it that I could apply it to the question in question.

— Carl

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.

— Scortchi - Reinstate Monica
source

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair $( S , P )$ , where $S$ is the set of possible observations, i.e., the sample space, and $P$ is a set of probability distributions on $S$ .

Suppose that we have a statistical model $(S, \mathcal{P})$ with $\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$ . The model is said to be a Parametric model if $\Theta$ has a finite dimension. In notation, we write that $\Theta \subseteq \mathbb{R}^d$ where $d$ is a positive integer ( $\mathbb{R}$ denotes the real numbers; other sets can be used, in principle). Here, $d$ is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P = {P_{μ, σ} (x) \equiv \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}}) : μ \in R, σ > 0} .

$\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}.$ In this example, the dimension,

d

$d$ , equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, $\mu=0$ , we can show a family of curves by plotting $\sigma=1,2,3,4,5$ or whatever choices for $\sigma$ .

— Carl
source