Dans un GLM, la probabilité logarithmique du modèle saturé est-elle toujours nulle?

Dans le cadre de la sortie d'un modèle linéaire généralisé, la déviance nulle et résiduelle est utilisée pour évaluer le modèle. Je vois souvent les formules de ces quantités exprimées en termes de probabilité logarithmique du modèle saturé, par exemple: /stats//a/113022/22199 , Régression logistique: comment obtenir un modèle saturé

Le modèle saturé, pour autant que je le comprends, est le modèle qui correspond parfaitement à la réponse observée. Ainsi, dans la plupart des endroits que j'ai vus, la log-vraisemblance du modèle saturé est toujours donnée comme nulle.

Pourtant, la façon dont la formule de la déviance est donnée suggère que parfois cette quantité est non nulle. (Comme si c'était toujours zéro, pourquoi s'embêter à l'inclure?)

Dans quels cas peut-elle être non nulle? S'il n'est jamais non nul, pourquoi l'inclure dans la formule de déviance?

— Alex
source

Réponses:

Si vous vouliez vraiment dire log-vraisemblance , alors la réponse est: ce n'est pas toujours zéro.

Par exemple, considérons les données de Poisson: $y_i \sim \text{Poisson}(\mu_i), i = 1, \ldots, n$ . La log-vraisemblance pour $Y = (y_1, \ldots, y_n)$ est donnée par:

\begin{matrix} (*) & ℓ (μ; Oui) = - \sum_{je = 1}^{n} μ_{je} + \sum_{je = 1}^{n} y_{je} Journal μ_{je} - \sum_{je = 1}^{n} Journal (y_{je}!) . \end{matrix}

$\ell(\mu; Y) = -\sum_{i = 1}^n \mu_i + \sum_{i = 1}^n y_i \log \mu_i - \sum_{i = 1}^n \log(y_i!). \tag{$*$}$

Différencier $\ell(\mu; Y)$ en $(*)$ par rapport à $\mu_i$ et le mettre à $0$ (c'est ainsi que l'on obtient le MLE pour le modèle saturé):

- 1 + \frac{y_{je}}{μ_{je}} = 0.

$-1 + \frac{y_i}{\mu_i} = 0.$ Résoudre cela pour

μ_{i}

$\mu_i$ pour obtenir

,remplaçant

nouveau dans

pour

donne que le log-vraisemblance du modèle saturé est:

{\hat{μ}}_{i} = y_{i}

$\hat{\mu}_i = y_i$

{\hat{μ}}_{i}

$\hat{\mu}_i$

(*)

$(*)$

μ_{i}

$\mu_i$

ℓ (\hat{μ}; Oui) = \sum_{je = 1}^{n} y_{je} (Journal y_{je} - 1) - \sum_{je = 1}^{n} Journal (y_{je}!) \neq 0

$\ell(\hat{\mu}; Y) = \sum_{i = 1}^n y_i(\log y_i - 1) -\sum_{i = 1}^n \log(y_i!) \neq 0$ moins que

y_{i}

$y_i$ prenne des valeurs très spéciales.

Dans la page d'aide de la Rfonction glm, sous l'élément deviance, le document explique ce problème comme suit:

deviance jusqu'à une constante, moins le double de la log-vraisemblance maximisée. Lorsqu'elle est sensible, la constante est choisie pour qu'un modèle saturé ait une déviance nulle.

Notez qu'il a mentionné que la déviance , au lieu de la log-vraisemblance du modèle saturé, est choisie pour être nulle.

Probablement, ce que vous vouliez vraiment confirmer, c'est que "la déviance du modèle saturé est toujours donnée comme nulle", ce qui est vrai, depuis la déviance, par définition (voir la section 4.5.1 de l' analyse des données catégorielles (2e édition) par Alan Agresti) est la statistique du rapport de vraisemblance d'un GLM spécifié au modèle saturé. Ce qui constantprécède dans la documentation R est en fait le double de la vraisemblance maximisée du log du modèle saturé.

En ce qui concerne votre affirmation "Pourtant, la façon dont la formule de la déviance est donnée suggère que parfois cette quantité est non nulle", c'est probablement en raison de l'abus d'utilisation du terme déviance . Par exemple, dans R, la statistique du rapport de vraisemblance de la comparaison de deux modèles arbitraires (imbriqués) et est également appelée déviance, qui serait plus précisément appelée la différence entre la déviance de et la déviance de , si nous suivions de près la définition donnée dans le livre d'Agresti. $M_1$ $M_2$ $M_1$ $M_2$

Conclusion

La log-vraisemblance du modèle saturé est en général non nulle.
La déviance (dans sa définition d'origine) du modèle saturé est nulle.
La sortie de déviance des logiciels (tels que R) est en général non nulle car elle signifie en réalité autre chose (la différence entre les déviances).

Voici la dérivation pour le cas général de la famille exponentielle et un autre exemple concret. Supposons que les données proviennent de la famille exponentielle (voir Statistiques appliquées modernes avec S , chapitre ): $7$

\begin{matrix} (1) & F (y_{je}; θ_{je}, φ) = \exp [{UNE}_{je} (y_{je} θ_{je} - γ (θ_{je})) / φ + τ (y_{je}, φ / {UNE}_{je})] . \end{matrix}

$f(y_i; \theta_i, \varphi) = \exp[A_i(y_i\theta_i - \gamma(\theta_i))/\varphi + \tau(y_i, \varphi/A_i)]. \tag{1}$ où

sont des poids antérieurs connus et

sont un paramètre de dispersion / échelle (pour de nombreux cas tels que binomial et Poisson, ce paramètre est connu, tandis que pour d'autres cas tels que normal et Gamma, ce paramètre est inconnu). La log-vraisemblance est alors donnée par:

A_{i}

$A_i$

φ

$\varphi$

Comme dans l'exemple de Poisson, les paramètres du modèle saturé peuvent être estimés en résolvant lafonction descoresuivante:

ℓ (θ, φ; Oui) = \sum_{je = 1}^{n} {UNE}_{je} (y_{je} θ_{je} - γ (θ_{je})) / φ + \sum_{je = 1}^{n} τ (y_{je}, φ / {UNE}_{je}) .

$\ell(\theta, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \theta_i - \gamma(\theta_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i).$

0 = U (θ_{je}) = \frac{\partial ℓ (θ, φ; Oui)}{\partial θ_{je}} = \frac{{UNE}_{je} (y_{je} - γ^{'} (θ_{je}))}{φ}

$0 = U(\theta_i) = \frac{\partial \ell(\theta, \varphi; Y)}{\partial \theta_i} = \frac{A_i(y_i - \gamma'(\theta_i))}{\varphi}$

Désignons la solution de l'équation ci - dessus par , alors la forme générale de la log-vraisemblance du modèle saturé (traiter le paramètre d'échelle comme constante) est: $\hat{\theta}_i$

\begin{matrix} (* *) & ℓ (\hat{θ}, φ; Oui) = \sum_{je = 1}^{n} {UNE}_{je} (y_{je} {\hat{θ}}_{je} - γ ({\hat{θ}}_{je})) / φ + \sum_{je = 1}^{n} τ (y_{je}, φ / {UNE}_{je}) . \end{matrix}

$\ell(\hat{\theta}, \varphi; Y) = \sum_{i = 1}^n A_i(y_i \hat{\theta}_i - \gamma(\hat{\theta}_i))/\varphi + \sum_{i = 1}^n \tau(y_i, \varphi/A_i). \tag{$**$}$

$(**)$ $\Gamma(\alpha, \beta)$

F (y; α, β) = \frac{β^{α}}{Γ (α)} e^{- β y} y^{α - 1}, y > 0, α > 0, β > 0,

$f(y; \alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}e^{-\beta y}y^{\alpha - 1}, \quad y > 0, \alpha > 0, \beta > 0,$

f

$f$

(1)

$(1)$

φ = \frac{1}{α}, θ = - \frac{β}{α},

$\varphi = \frac{1}{\alpha},\, \theta = -\frac{\beta}{\alpha},$

f

$f$

F (y; θ, φ) = \exp [\frac{θ y - (- Journal (- θ))}{φ} + τ (y, φ)],

$f(y; \theta, \varphi) = \exp\left[\frac{\theta y - (-\log(-\theta))}{\varphi}+ \tau(y, \varphi)\right],$

τ (y, φ) = - \frac{Journal φ}{φ} + (\frac{1}{φ} - 1) Journal y - Journal Γ (φ^{- 1}) .

$\tau(y, \varphi) = -\frac{\log \varphi}{\varphi} + \left(\frac{1}{\varphi} - 1\right)\log y - \log\Gamma(\varphi^{-1}).$

{\hat{θ}}_{i} = - \frac{1}{y_{i}}

$\hat{\theta}_i = -\frac{1}{y_i}$

\sum_{je = 1}^{n} \frac{1}{φ} [{\hat{θ}}_{je} y_{je} - (- Journal (- {\hat{θ}}_{je}))] = \sum_{je = 1}^{n} \frac{1}{φ} [- 1 - Journal (y_{je})] \neq 0,

$\sum_{i = 1}^n \frac{1}{\varphi}[\hat{\theta}_iy_i - (-\log(-\hat{\theta}_i))] = \sum_{i = 1}^n \frac{1}{\varphi}[-1 - \log(y_i)] \neq 0,$ sauf si

y_{i}

$y_i$ prendre des valeurs très spéciales.

— Zhanxiong
source

La vraisemblance logicielle est-elle nulle si et seulement si le modèle peut attribuer une probabilité de 100% à chacun des résultats possibles?

— Alex

Je ne comprends pas très bien ce que tu voulais dire. Mais d'après ma dérivation, vous pourriez conclure qu'il est

0

$0$ si et seulement si le

τ

$\tau$ est identique

0

$0$ et il n'y a pas de paramètre de dispersion.

— Zhanxiong du

Votre dérivation est très bonne mais la preuve formelle est un peu au-dessus de ma tête en ce moment. Merci pour votre exemple avec le modèle de Poisson. Ce que j'ai retenu de cet exemple, c'est que le modèle de Poisson ne peut pas attribuer une probabilité de 100% au résultat observé étant donné une valeur pour la moyenne de Poisson, donc la probabilité ne peut pas être nulle.

— Alex

L'instruction "model assign

100 %

$100\%$ probabilité pour le résultat observé "me semble bizarre. Voulez-vous dire que compte tenu des observations

y_{1}, \dots, y_{n}

$y_1, \ldots, y_n$ , et si

Y

$Y$ est une variable aléatoire de Poisson,

P (Y = y_{1}) + P (Y = y_{2}) + \dots + P (Y = y_{n}) < 1

$P(Y= y_1) + P(Y = y_2) + \cdots + P(Y = y_n) < 1$ ?

— Zhanxiong

Ce que je voulais dire, c'est que si

Y

$Y$ était une variable aléatoire de Poisson, alors

P (Y = y_{i}) < 1

$P(Y = y_i) < 1$ pour toute

i

$i$ ou moyenne de Poisson, il est donc impossible de trouver un paramètre de modèle qui donne une probabilité logarithmique nulle pour l'observé. Peut-être que je comprends complètement mal le concept d'un modèle saturé.

— Alex

La réponse de Zhanxiong est déjà excellente (+1), mais voici une démonstration rapide que la log-vraisemblance du modèle saturé est $0$ pour une régression logistique. J'ai pensé que je posterais parce que je n'ai pas vu ce TeX sur ce site, et parce que je viens de les écrire pour une conférence.

La probabilité est

\begin{matrix} (1) & L (y; X, β) = \prod_{je = 1}^{n} F (y_{je}; X_{je}, β) = \prod_{je = 1}^{n} π_{je}^{y_{je}} (1 - π_{je})^{1 - y_{je}} = \prod_{je = 1}^{n} {(\frac{π_{je}}{1 - π_{je}})}^{y_{je}} (1 - π_{je}) \end{matrix}

$L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) = \prod_{i=1}^n f(y_i ; \mathbf{x}_i, \boldsymbol{\beta}) = \prod_{i=1}^n \pi_i^{y_i}(1-\pi_i)^{1-y_i} = \prod_{i=1}^n\left( \frac{\pi_i}{1-\pi_i}\right)^{y_i} (1 - \pi_i) \tag{1}$ où

π_{i} = invlogit (x_{i}^{⊺} β)

$\pi_i = \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )$ .

La log-vraisemblance est

\begin{aligned} Journal L (y; X, β) & = \sum_{je = 1}^{n} y_{je} Journal (\frac{π_{je}}{1 - π_{je}}) + Journal (1 - π_{je}) \\ = \sum_{je = 1}^{n} y_{je} logit (π_{je}) + Journal (1 - π_{je}) \\ = \sum_{je = 1}^{n} y_{je} X_{je}^{⊺} β + Journal (1 - invlogit (X_{je}^{⊺} β)) \\ = \sum_{je = 1}^{n} y_{je} X_{je}^{⊺} β + Journal (invlogit (- X_{je}^{⊺} β)) \\ = \sum_{je = 1}^{n} y_{je} X_{je}^{⊺} β - Journal (1 + \exp [X_{je}^{⊺} β])) \end{aligned}

$\begin{align*} \log L(\mathbf{y} ; \mathbf{X}, \boldsymbol{\beta}) &= \sum_{i=1}^n y_i \log \left( \frac{\pi_i}{1-\pi_i}\right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \text{logit} \left( \pi_i \right) + \log(1-\pi_i) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( 1 - \text{invlogit}(\mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} + \log( \text{invlogit}( - \mathbf{x}_i^\intercal \boldsymbol{\beta} )) \\ &= \sum_{i=1}^n y_i \mathbf{x}_i^\intercal \boldsymbol{\beta} - \log( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] )) \end{align*}$

Si vous prenez les dérivées par rapport à tous les coefficients que vous obtenez

\begin{matrix} (2) & \nabla ℓ (β) = \sum_{je = 1}^{n} y_{je} X_{je} - \frac{\exp [X_{je}^{⊺} β]}{(1 + \exp [X_{je}^{⊺} β])} X_{je} . \end{matrix}

$\nabla \ell(\boldsymbol{\beta}) = \sum_{i=1}^n y_i \mathbf{x}_i - \frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }\mathbf{x}_i \tag{2}.$

Définition de cette expression égale à $\mathbf{0}$ et résoudre pour $\boldsymbol{\beta}$ vous donnera votre réponse. Habituellement, cela ne peut pas être fait analytiquement, ce qui explique la popularité / nécessité d'utiliser des algorithmes itératifs pour s'adapter à ce modèle, mais dans le cas d'un modèle saturé, c'est possible.

Pour trouver le modèle saturé, nous donnons à chaque ligne son propre coefficient. Donc $\boldsymbol{\beta} \in \mathbb{R}^n$ et la matrice de conception multipliée par le vecteur de coefficient est

X β = [\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}] [\begin{matrix} β_{1} \\ β_{2} \\ ⋮ \\ β_{n} \end{matrix}] .

$\mathbf{X}\boldsymbol{\beta} = \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1\\ \end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{bmatrix}.$

Notez qu'en particulier, $\mathbf{x}_i^\intercal \boldsymbol{\beta} = \beta_i$ .

Donc, en prenant le $j$ e ligne de l'équation (2) nous donne

\sum_{je = 1}^{n} y_{je} X_{je, j} = \sum_{je = 1}^{n} \frac{\exp [X_{je}^{⊺} β]}{(1 + \exp [X_{je}^{⊺} β])} X_{je, j}

$\sum_{i=1}^n y_i x_{i,j} = \sum_{i=1}^n\frac{\exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}]}{( 1 + \exp[ \mathbf{x}_i^\intercal \boldsymbol{\beta}] ) }x_{i,j}$

ce qui ne peut être vrai que pour chaque observation $i$ :

y_{je} = invlogit (β_{je})

$y_i = \text{invlogit}(\beta_i )$ ou en d'autres termes chacun

β_{i}

$\beta_i$ est l'infini plus ou moins (si

y_{i}

$y_i$ est

1

$1$ ou

0

$0$ , respectivement). Nous pouvons rebrancher ces paramètres dans (1) pour obtenir la probabilité maximisée:

\prod_{je = 1}^{n} {\hat{π}}_{je}^{y_{je}} (1 - {\hat{π}}_{je})^{1 - y_{je}} = 1^{n} = 1.

$\prod_{i=1}^n \hat{\pi}_i^{y_i}(1-\hat{\pi}_i)^{1-y_i} = 1^n = 1.$ De toute évidence, le journal de ceci est

0

$0$ .

— Taylor
source

Mais cela suppose des données non groupées . Si vous avez des groupes avec

n_{i} > 1

$n_i>1$ (et les mêmes covariables) (dans R, par exemple en utilisant le formulaire glm( cbind(k, n-k) ~ x + ... ), alors le modèle saturé n'a pas de loglik vraisemblance nulle.

— kjetil b halvorsen

@kjetilbhalvorsen oh bon point. Je n'ai jamais essayé ça, laisse-moi vérifier

— Taylor

@Alex: oui, c'est vrai. au moins pour les distributions discrètes. pour des distributions continues, cela reviendrait à laisser la densité égale à 1, ce qui n'est pas nécessairement significatif et donc pas une chose sensée à essayer de réaliser. un peu plus généralement, la log-vraisemblance du modèle saturé vous donne une limite supérieure pour les performances de tout modèle qui suit votre hypothèse de la famille de distribution sous-jacente. En d'autres termes, la probabilité logarithmique d'un modèle binomial saturé est "aussi bonne que possible" pour l'ensemble de données donné (X, Y) en supposant que Y est binomial. Il est logique de comparer votre modèle glm à cette limite supérieure par opposition, par exemple, à 100% (ou similaire), car votre modèle est intrinsèquement contraint par votre hypothèse sur la distribution des réponses.

— bettmensch88
source