Estimateurs du maximum de vraisemblance - Gaussien multivarié

Le contexte

Le gaussien multivarié apparaît fréquemment dans l'apprentissage automatique et les résultats suivants sont utilisés dans de nombreux livres et cours de ML sans les dérivations.

Étant donné les données sous la forme d'une matrice de dimensions , si nous supposons que les données suivent une distribution gaussienne à variables avec des paramètres moyenne ( ) et matrice de covariance ( ) les estimateurs du maximum de vraisemblance sont donnés par: $\mathbf{X}$ $m \times p$ $p$ $\mu$ $p \times 1$ $\Sigma$ $p \times p$

$\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}}$

$\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T$

Je comprends que la connaissance du gaussien multivarié est une condition préalable pour de nombreux cours de ML, mais il serait utile d'avoir une dérivation complète dans une réponse autonome une fois pour toutes car je pense que de nombreux auto-apprenants rebondissent autour des statistiques. Sites Web stackexchange et math.stackexchange à la recherche de réponses.

Question

Quelle est la dérivation complète des estimateurs du maximum de vraisemblance pour la gaussienne multivariée

Exemples:

Ces notes de cours (page 11) sur l'analyse discriminante linéaire, ou celles-ci utilisent les résultats et supposent des connaissances antérieures.

Il y a aussi quelques postes qui ont été partiellement répondus ou fermés:

— Xavier Bourret Sicotte
source

Réponses:

Dériver les estimateurs du maximum de vraisemblance

Supposons que nous ayons vecteurs aléatoires, chacun de taille : où chaque vecteur aléatoire peut être interprété comme une observation (point de données) à travers variables. Si chaque est iid en tant que vecteurs gaussiens multivariés: $m$ $p$ $\mathbf{X^{(1)}, X^{(2)},...,X^{(m)}}$ $p$ $\mathbf{X}^{(i)}$

X^{(i)} \sim N_{p} (μ, Σ)

$\mathbf{X^{(i)}} \sim \mathcal{N}_p(\mu, \Sigma)$

Où les paramètres sont inconnus. Pour obtenir leur estimation, nous pouvons utiliser la méthode du maximum de vraisemblance et maximiser la fonction de vraisemblance logarithmique. $\mu, \Sigma$

Notez que par l'indépendance des vecteurs aléatoires, la densité conjointe des données est le produit des densités individuelles , c'est-à-dire . Prendre le logarithme donne la fonction log-vraisemblance $\mathbf{ \{X^{(i)}}, i = 1,2,...,m\}$ $\prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} ; \mu , \Sigma })$

\begin{aligned} l (μ, Σ | X^{(je)}) & = Journal \prod_{je = 1}^{m} F_{X^{(je)}} (X^{(je)} | μ, Σ) \\ = Journal \prod_{je = 1}^{m} \frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (X^{(je)} - μ)^{T} Σ^{- 1} (X^{(je)} - μ)) \\ = \sum_{je = 1}^{m} (- \frac{p}{2} Journal (2 π) - \frac{1}{2} Journal | Σ | - \frac{1}{2} (X^{(je)} - μ)^{T} Σ^{- 1} (X^{(je)} - μ)) \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \log \prod_{i=1}^m f_{\mathbf{X^{(i)}}}(\mathbf{x^{(i)} | \mu , \Sigma }) \\ & = \log \ \prod_{i=1}^m \frac{1}{(2 \pi)^{p/2} |\Sigma|^{1/2}} \exp \left( - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \\ & = \sum_{i=1}^m \left( - \frac{p}{2} \log (2 \pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \right) \end{aligned}$

\begin{aligned} l (μ, Σ;) & = - \frac{m p}{2} Journal (2 π) - \frac{m}{2} Journal | Σ | - \frac{1}{2} \sum_{je = 1}^{m} (X^{(je)} - μ)^{T} Σ^{- 1} (X^{(je)} - μ) \end{aligned}

$\begin{aligned} l(\mu, \Sigma ; ) & = - \frac{mp}{2} \log (2 \pi) - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \end{aligned}$

Dérivation $\hat \mu$

Pour prendre la dérivée par rapport à et égaler à zéro, nous utiliserons l'identité de calcul matricielle suivante: $\mu$

$\mathbf{ \frac{\partial w^T A w}{\partial w} = 2Aw}$ si ne dépend pas de et est symétrique. $\mathbf{w}$ $\mathbf{A}$ $\mathbf{A}$

\begin{aligned} \frac{\partial}{\partial μ} l (μ, Σ | X^{(je)}) & = \sum_{je = 1}^{m} Σ^{- 1} (μ - X^{(je)}) = 0 \\ Puisque Σ est défini positif \\ 0 & = m μ - \sum_{je = 1}^{m} X^{(je)} \\ \hat{μ} & = \frac{1}{m} \sum_{je = 1}^{m} X^{(je)} = \bar{X} \end{aligned}

$\begin{aligned} \frac{\partial }{\partial \mu} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \sum_{i=1}^m \mathbf{ \Sigma^{-1} ( \mu - x^{(i)} ) } = 0 \\ & \text{Since $\Sigma$ is positive definite} \\ 0 & = m \mu - \sum_{i=1}^m \mathbf{ x^{(i)} } \\ \hat \mu &= \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} \end{aligned}$

Ce qu'on appelle souvent le vecteur moyen de l' échantillon .

Dérivation $\hat \Sigma$

La dérivation du MLE pour la matrice de covariance nécessite plus de travail et l'utilisation des propriétés d'algèbre linéaire et de calcul suivantes:

La trace est invariante sous permutations cycliques des produits matriciels: $tr[ACB] = tr[CAB] = tr[BCA]$

Puisque est scalaire, nous pouvons prendre sa trace et obtenir la même valeur: $x^TAx$ $x^tAx = tr[x^TAx] = tr[x^txA]$

$\frac{\partial}{\partial A} tr[AB] = B^T$

$\frac{\partial}{\partial A} \log |A| = A^{-T}$

La combinaison de ces propriétés nous permet de calculer

\frac{\partial}{\partial A} x^{t} A x = \frac{\partial}{\partial A} t r [x^{T} x A] = [x x^{t}]^{T} = x^{T T} x^{T} = x x^{T}

$\frac{\partial}{\partial A} x^tAx =\frac{\partial}{\partial A} tr[x^TxA] = [xx^t]^T = x^{TT}x^T = xx^T$

Quel est le produit extérieur du vecteur avec lui-même. $x$

Nous pouvons maintenant réécrire la fonction log-vraisemblance et calculer la dérivée wrt (note est constante) $\Sigma^{-1}$ $C$

\begin{aligned} l (μ, Σ | x^{(i)}) & = C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} (x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ) \\ = C + \frac{m}{2} \log | Σ^{- 1} | - \frac{1}{2} \sum_{i = 1}^{m} t r [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}] \\ \frac{\partial}{\partial Σ^{- 1}} l (μ, Σ | x^{(i)}) & = \frac{m}{2} Σ - \frac{1}{2} \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} Since Σ^{T} = Σ \end{aligned}

$\begin{aligned} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \text{C} - \frac{m}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu)^T \Sigma^{-1} (x^{(i)} - \mu) } \\ & = \text{C} + \frac{m}{2} \log |\Sigma^{-1}| - \frac{1}{2} \sum_{i=1}^m tr[ \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)^T \Sigma^{-1} } ] \\ \frac{\partial }{\partial \Sigma^{-1}} l(\mathbf{ \mu, \Sigma | x^{(i)} }) & = \frac{m}{2} \Sigma - \frac{1}{2} \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \ \ \text{Since $\Sigma^T = \Sigma$} \end{aligned}$

Égal à zéro et résolution de $\Sigma$

\begin{aligned} 0 & = m Σ - \sum_{i = 1}^{m} {(x^{(i)} - μ) (x^{(i)} - μ)}^{T} \\ \hat{Σ} & = \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)} - \hat{μ}) (x^{(i)} - \hat{μ})}^{T} \end{aligned}

$\begin{aligned} 0 &= m \Sigma - \sum_{i=1}^m \mathbf{(x^{(i)} - \mu) (x^{(i)} - \mu)}^T \\ \hat \Sigma & = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T \end{aligned}$

Sources

— Xavier Bourret Sicotte
source

Des épreuves alternatives, des formes plus compactes ou une interprétation intuitive sont les bienvenues!

— Xavier Bourret Sicotte

Dans la dérivation de , pourquoi doit-il être défini positif? Semble-t-il suffisant que soit inversible? Pour une matrice inversible , uniquement lorsque ?

μ

$\mu$

Σ

$\Sigma$

Σ

$\Sigma$

A

$A$

A x = 0

$Ax=0$

x = 0

$x=0$

— Tom Bennett

Pour clarifier,

est une matrice

qui peut avoir des composantes diagonales et non diagonales finies indiquant une corrélation entre les vecteurs, n'est-ce pas? Si tel est le cas, dans quel sens ces vecteurs sont-ils indépendants? Aussi, pourquoi la fonction de probabilité conjointe est-elle égale à la vraisemblance? La densité conjointe,

, ne devrait-elle pas être égale à la probabilité multipliée par l'a priori, c'est-à-dire

Σ

$\Sigma$

m \times m

$m \times m$

f (x, y)

$f(x,y)$

f (x | y) f (y)

$f(x|y)f(y)$

— Mathews24

@TomBennett la matrice sigma est définie positive par définition - voir stats.stackexchange.com/questions/52976/… pour la preuve. L'identité du calcul matriciel nécessite que la matrice soit symétrique et non définie positive. Mais comme les matrices définies positives sont toujours symétriques, cela fonctionne

— Xavier Bourret Sicotte

Oui en effet - l'indépendance entre les observations permet d'obtenir la vraisemblance - le libellé est peut-être assez flou - c'est la version multivariée de la vraisemblance. Le prieur est toujours hors de propos malgré tout

— Xavier Bourret Sicotte

Une autre preuve de qui prend la dérivée par rapport à directement: $\widehat{\Sigma}$ $\Sigma$

Reprenant la log-vraisemblance comme ci-dessus:

\begin{array}{rcl} ℓ (μ, Σ) & = & C - \frac{m}{2} \log | Σ | - \frac{1}{2} \sum_{i = 1}^{m} tr [(x^{(i)} - μ)^{T} Σ^{- 1} (x^{(i)} - μ)] \\ = & C - \frac{1}{2} (m \log | Σ | + \sum_{i = 1}^{m} tr [(x^{(i)} - μ) (x^{(i)} - μ)^{T} Σ^{- 1}]) \\ = & C - \frac{1}{2} (m \log | Σ | + tr [S_{μ} Σ^{- 1}]) \end{array}

$\begin{eqnarray} \ell(\mu, \Sigma) &=& C - \frac{m}{2}\log|\Sigma|-\frac{1}{2} \sum_{i=1}^m \text{tr}\left[(\mathbf{x}^{(i)}-\mu)^T \Sigma^{-1} (\mathbf{x}^{(i)}-\mu)\right]\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| + \sum_{i=1}^m\text{tr} \left[(\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T\Sigma^{-1} \right]\right)\\ &=&C - \frac{1}{2}\left(m\log|\Sigma| +\text{tr}\left[ S_\mu \Sigma^{-1} \right] \right) \end{eqnarray}$ où

S_{μ} = \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T}

$S_\mu = \sum_{i=1}^m (\mathbf{x}^{(i)}-\mu)(\mathbf{x}^{(i)}-\mu)^T$ et nous avons utilisé les valeurs cyclique et propriétés linéaires de

tr

$\text{tr}$ . Pour calculer

\partial ℓ / \partial Σ

$\partial \ell /\partial \Sigma$ nous observons d'abord que

\frac{\partial}{\partial Σ} \log | Σ | = Σ^{- T} = Σ^{- 1}

$\frac{\partial}{\partial \Sigma} \log |\Sigma| = \Sigma^{-T}=\Sigma^{-1}$ par la quatrième propriété ci-dessus. Pour prendre la dérivée du second terme, nous aurons besoin de la propriété

\frac{\partial}{\partial X} tr (A X^{- 1} B) = - (X^{- 1} B A X^{- 1})^{T} .

$\frac{\partial}{\partial X}\text{tr}\left( A X^{-1} B\right) = -(X^{-1}BAX^{-1})^T.$ (extrait deThe Matrix Cookbook, équation 63). En appliquant cela avec

B = I

$B=I$ nous obtenons que

\frac{\partial}{\partial Σ} tr [S_{μ} Σ^{- 1}] = - {(Σ^{- 1} S_{μ} Σ^{- 1})}^{T} = - Σ^{- 1} S_{μ} Σ^{- 1}

$\frac{\partial}{\partial \Sigma}\text{tr}\left[S_\mu \Sigma^{-1}\right] = -\left( \Sigma^{-1} S_\mu \Sigma^{-1}\right)^T = -\Sigma^{-1} S_\mu \Sigma^{-1}$ car

Σ

$\Sigma$ et

S_{μ}

$S_\mu$ sont symétriques. Alors

\frac{\partial}{\partial Σ} ℓ (μ, Σ) \propto m Σ^{- 1} - Σ^{- 1} S_{μ} Σ^{- 1} .

$\frac{\partial}{\partial \Sigma}\ell(\mu, \Sigma) \propto m \Sigma^{-1} - \Sigma^{-1} S_\mu \Sigma^{-1}.$ Mettre ce paramètre à 0 et réarranger donne

\hat{Σ} = \frac{1}{m} S_{μ} .

$\widehat{\Sigma} = \frac{1}{m}S_\mu.$

$\Lambda = \Sigma^{-1}$ $\partial/{\partial \Sigma^{-1}}$ $\partial/\partial \Sigma$

— Eric Kightley
source

Estimateurs du maximum de vraisemblance - Gaussien multivarié

Le contexte

Question

Exemples:

Dériver les estimateurs du maximum de vraisemblance

Dérivationμ^μ^\hat \mu

DérivationΣ^Σ^\hat \Sigma

Sources

Dérivation $\hat \mu$

Dérivation $\hat \Sigma$