Quelle est la raison d'être de la famille exponentielle des distributions?

10

Du cours de probabilité élémentaire, les distributions de probabilité telles que gaussienne, Poisson ou exponentielle ont toutes une bonne motivation. Après avoir regardé la formule des distributions exponentielles de la famille pendant longtemps, je n'ai toujours aucune intuition.

f_{X} (x ∣ θ) = h (x) \exp (η (θ) \cdot T (x) - A (θ))

$f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }}){\Big )}$

Quelqu'un peut-il m'aider à comprendre pourquoi nous en avons besoin en premier lieu? Quels sont les avantages de modéliser une variable de réponse pour qu'elle soit une famille exponentielle par rapport à la normale?

EDIT: Par la famille exponentielle, je voulais dire la classe générale des distributions décrites ici .

exponential-family

— habitant du nord
source

1

TL; DR? Une partie de la raison est la commodité mathématique; de nombreux problèmes peuvent être résolus analytiquement si vous supposez que les fichiers PDF appartiennent à cette famille.

— Vladislavs Dovgalecs

10

Quels sont les avantages de modéliser une variable de réponse pour qu'elle soit une famille exponentielle par rapport à la normale?

La famille exponentielle est beaucoup plus large que la normale. Par exemple, quel est l'avantage d'utiliser un Poisson ou un binôme au lieu d'une normale? Une utilisation normale n'est pas très utile si vous avez des comptes avec une moyenne faible. Qu'en est-il si vos données sont continues mais très correctes - peut-être des heures ou des montants monétaires? La famille exponentielle comprend le normal, le binôme, le Poisson et le Gamma comme cas spéciaux (parmi beaucoup d'autres)
Il intègre une grande variété de relations variance-moyenne .
Elle découle de la tentative de répondre à une question selon «quelles distributions sont des fonctions d'une statistique suffisante », et ainsi les modèles peuvent-ils être estimés via ML en utilisant des statistiques suffisantes très simples; cela inclut les modèles habituels disponibles dans les programmes qui correspondent aux modèles linéaires généralisés. En effet, la statistique suffisante ( ) est explicite dans la fonction de densité de famille exponentielle. $T(x)$
Il permet de découpler facilement la relation entre la réponse et le prédicteur de la distribution conditionnelle de la réponse (via les fonctions de liaison). Par exemple, vous pouvez adapter une relation linéaire à un modèle qui spécifie que la réponse conditionnelle a une distribution gamma ou une relation exponentielle avec une réponse gaussienne conditionnelle dans un cadre GLM.

Pour les Bayésiens, la famille exponentielle est assez intéressante car tous les membres de la famille exponentielle ont des prieurs conjugués.

— Glen_b -Reinstate Monica
source

1

Je suis un peu perdu sur votre 3ème point. Aussi loin que je me souvienne, toutes les distributions de probabilité de ma classe de probabilité de premier cycle sont fonction de leurs statistiques suffisantes. Ce n'est peut-être pas le cas pour des distributions étranges comme Cauchy (dont je ne suis pas si sûr des statistiques suffisantes) ou d'autres distributions de loi de puissance. Mais pourquoi est-ce un gros problème?

— habitant du nord

1

Il est possible que je ne m'exprime pas clairement. Voir Koopman, BO, (1936), «On Distributions Admitting a Sufficient Statistic» , Transactions de l'American Mathematical Society, 39: 3, 399-409. C'est là que le concept de la famille exponentielle se pose; le sens spécifique dans lequel la famille exponentielle est spéciale par rapport à la suffisance est expliqué dans la première page et les premières lignes de la deuxième page.

— Glen_b -Reinstate Monica

5

Pour moi, la principale motivation derrière les distributions de familles exponentielles est qu'elles sont les familles de distributions d'entropie maximales étant donné un ensemble de statistiques suffisantes et un support. En d'autres termes, il s'agit d'une distribution hypothétique minimale.

Par exemple, si vous mesurez uniquement la moyenne et la variance de la valeur réelle, le choix de modélisation le moins hypothétique est une distribution normale.

Du point de vue du calcul, il y a d'autres avantages:

Ils sont fermés sous "combinaison de preuves". Autrement dit, la combinaison de deux probabilités indépendantes de la même famille exponentielle est toujours dans la même famille exponentielle et ses paramètres naturels ne sont que la somme des paramètres naturels de ses composants. C'est pratique pour les statistiques bayésiennes.
Le gradient de l'entropie croisée entre deux distributions de familles exponentielles est la différence de leurs paramètres d'espérance. Cela signifie qu'une fonction de perte qui est une telle entropie croisée est une fonction dite de perte de correspondance , ce qui est pratique pour l'optimisation.

— Neil G
source

2

La liste de Glen est bonne. Je vais ajouter 1 application supplémentaire pour compléter sa réponse: dériver des a priori conjugués pour l'inférence bayésienne.

Une partie centrale de l'inférence bayésienne est la dérivation des distributions postérieures . Avoir un préalable qui est conjugué à la probabilité signifie que la partie postérieure et avant appartiendra à la même classe de distributions de probabilité. $p(\theta|y) \propto p(y|\theta) p(\theta)$ $p(\theta)$ $p(y|\theta)$ $p(y|\theta)$ $p(\theta)$

La propriété utile à laquelle je fais référence est que, pour une probabilité de observations tirées d'une famille exponentielle à un paramètre de la forme $n$

$p(y_1,\ldots,y_n|\theta) = \prod p(y_i|\theta) \propto g(\theta)^n \exp \big[ h(\theta) \sum t(y_i) \big]$ ,

nous pouvons simplement écrire un conjugué avant

$p(\theta) \propto g(\theta)^\nu \big[ h(\theta) \delta \big]$

puis le postérieur fonctionne comme

$p(\theta|y_1,\ldots,y_n) \propto g(\theta)^{n+\nu} \exp \big[ h(\theta) \big( \sum t(y_i) + \delta \big) \big]$

Pourquoi cette conjugaison est-elle utile? Parce qu'il simplifie à la fois notre interprétation et notre calcul tout en effectuant l'inférence bayésienne. Cela signifie également que nous pouvons facilement trouver des expressions analytiques pour le postérieur sans avoir à faire trop d'algèbre.

— AG
source

0

Vous souhaitez que votre modèle de données reflète le processus de génération. Le «processus» générant des variables gaussiennes a des caractéristiques très différentes de celles régissant l'exponentielle, et il n'est pas toujours intuitif de savoir pourquoi. Parfois, vous devez apprécier d'autres caractéristiques de distribution. À titre d'exemple, considérons que la fonction de risque pour le gaussien augmente tandis que l'exponentielle est plate. Comme exemple pratique banal, supposons que Im va vous piquer à intervalles, et l '«intervalle inter poke» sera choisi par la fonction de génération gaussienne ou exponentielle. Sous un gaussien, vous constateriez que les coups sont prévisibles et semblent très probables après de longs intervalles. Sous exponentielle, ils se sentiraient très imprévisibles. La raison en est due à la fonction génératrice, qui dépend du phénomène sous-jacent.

— HEITZ
source

6

La question était ambiguë de savoir si le PO posait des questions sur la distribution exponentielle ou la famille exponentielle. Ici, vous interprétez le Q comme le premier, tandis que @Glen_b l'interprétait comme le dernier. Le PO a maintenant clarifié leur Q concernant la famille exponentielle. À la lumière de cela, envisageriez-vous de modifier cela pour en parler, ou de le supprimer?

— gung - Rétablir Monica