Probabilité maximale restreinte avec un rang de colonne inférieur à la totalité de

Cette question traite de l'estimation du maximum de vraisemblance restreint (REML) dans une version particulière du modèle linéaire, à savoir:

Y = X (α) β + ϵ, ϵ \sim N_{n} (0, Σ (α)),

$Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)),$

où $X(\alpha)$ est une matrice ( $n \times p$ ) paramétrée par $\alpha \in \mathbb R^k$ , tout comme $\Sigma(\alpha)$ . $\beta$ est un vecteur inconnu de paramètres de nuisance; l'intérêt est d'estimer $\alpha$ , et on a $k\leq p\ll n$ . L'estimation du modèle par maximum de vraisemblance n'est pas un problème, mais je veux utiliser REML. Il est bien connu, voir par exemple LaMotte , que la vraisemblance $A'Y$ , où $A$ est une matrice semi-orthogonale telle que $A'X=0$ peut s'écrire

L_{REML} (α ∣ Y) \propto | X^{'} X |^{1 / 2} | Σ |^{- 1 / 2} | X^{'} Σ^{- 1} X |^{- 1 / 2} \exp {- \frac{1}{2} r^{'} Σ^{- 1} r}, r = (I - X (X^{'} Σ^{- 1} X)^{+} X^{'} Σ^{- 1}) Y,

$L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y,$

lorsque est le rang de colonne complet $X$ .

Mon problème est que pour certains parfaitement raisonnables et scientifiquement intéressants, la matrice n'est pas de plein rang de colonne. Toutes les dérivations que j'ai vues de la probabilité restreinte ci-dessus utilisent des égalités déterminantes qui ne sont pas applicables lorsque , à savoir qu'ils assument rang de la colonne complète de . Cela signifie que la probabilité restreinte ci-dessus n'est correcte que pour mon réglage sur des parties de l'espace des paramètres, et n'est donc pas ce que je souhaite optimiser. $\alpha$ $X(\alpha)$ $\vert X'X\vert=0$ $X$

Question: Y a-t-il des probabilités restreintes plus générales, dérivées, dans la littérature statistique ou ailleurs, sans l'hypothèse que soit le rang complet des colonnes? Si oui, à quoi ressemblent-ils? $X$

Quelques observations:

Dériver la partie exponentielle n'est pas un problème pour tout et elle peut être écrite en termes de l'inverse de Moore-Penrose comme ci-dessus $X(\alpha)$
Les colonnes de sont une base orthonormée (quelconque) pour $A$ $C(X)^\bot$
Pour connu , la probabilité pour peut facilement être écrite pour chaque , mais bien sûr le nombre de vecteurs de base, c'est-à-dire de colonnes, dans dépend du rang de colonne de $A$ $A'Y$ $\alpha$ $A$ $X$

Si quelqu'un intéressé par cette question croit que le paramétrage exact de aiderait, faites-le moi savoir et je les noterai. À ce stade, je suis surtout intéressé par un REML pour un général des dimensions correctes. $X,\Sigma$ $X$

Une description plus détaillée du modèle suit ici. Soit une autorégression vectorielle de premier ordre dimensionnelle [VAR (1)] où . Supposons que le processus démarre à une valeur fixe au temps . $y_t = \mu + Ay_{t - 1} + v_t, t = 1, \dots, T$ $r$ $v_t \overset{iid}{\sim}N(0, \Omega)$ $y_0$ $t = 0$

Définissez . Le modèle peut être écrit sous la forme du modèle linéaire utilisant les définitions et la notation suivantes: $Y = [y_1', \dots, y_T']'$ $Y = X\beta + \varepsilon$

\begin{aligned} X & = [1_{T} \otimes I_{r}, C^{- 1} B] \\ β & = [μ^{'}, y_{0}^{'} - μ^{'}]^{'} \\ v a r (ε)^{- 1} & = C^{'} (I_{T} \otimes Ω^{- 1}) C \\ C & = [\begin{matrix} I_{r} & 0 & 0 & \dots \\ - A & I_{r} & 0 & \dots \\ 0 & - A & I_{r} & \dots \\ ⋮ & ⋮ & ⋮ & ⋱ \end{matrix}] \\ B & = e_{1, T} \otimes A, \end{aligned}

$\begin{align} X &= [1_T \otimes I_r, C^{-1}B] \\ \beta &= [\mu', y_0' - \mu']' \\ \mathrm{var}(\varepsilon)^{-1} &= C'(I_T \otimes \Omega^{-1})C \\ C &= \begin{bmatrix} I_r & 0 & 0 & \cdots \\ -A & I_r & 0 & \cdots \\ 0 & -A & I_r & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{bmatrix} \\ B &= e_{1, T} \otimes A, \end{align}$

où désigne un vectoriel de dimension de uns et de le premier vecteur de base de type . $1_T$ $T-$ $e_{1,T}$ $\mathbb R^T$

Notons . Notez que si n'est pas un rang complet, alors n'est pas un rang complet de colonne. Cela inclut, par exemple, les cas où l'une des composantes de ne dépend pas du passé. $\alpha = \mathrm{vec}(A)$ $A$ $X(\alpha)$ $y_t$

L'idée d'estimer les VAR en utilisant REML est bien connue, par exemple, dans la littérature sur les régressions prédictives (voir par exemple Phillips et Chen et les références qui y sont contenues).

Il peut être utile de préciser que la matrice n'est pas une matrice de conception au sens habituel, elle tombe juste hors du modèle et à moins qu'il n'y ait une connaissance a priori de il n'y a, pour autant que je sache , aucun moyen de reparamétrer que ce soit complet. $X$ $A$

J'ai posté une question sur math.stackexchange qui est liée à celle-ci dans le sens où une réponse à la question mathématique peut aider à dériver une probabilité qui répondrait à cette question.

— ekvall
source

Peut-être qu'une façon de répondre à la question est de demander, que se passe-t-il dans les modèles mixtes linéaires lorsque la matrice du modèle n'est pas de rang de colonne complet?

— Greenparker

Merci pour la prime @Greenparker. Et, oui, si une probabilité restreinte pouvait être notée pour un modèle mixte linéaire, avec une matrice de conception d'effets fixes de rang inférieur à la pleine colonne, cela aiderait.

— ekvall

Dériver la partie exponentielle n'est pas un problème pour tout X (α) X (α) et elle peut être écrite en termes de l'inverse de Moore-Penrose comme ci-dessus

Je doute que cette observation soit correcte. L'inverse généralisé impose en fait une restriction linéaire supplémentaire à vos estimateurs [Rao & Mitra], donc nous devrions considérer la vraisemblance conjointe dans son ensemble au lieu de deviner "l'inverse de Moore-Penrose fonctionnera pour la partie exponentielle". Cela semble formellement correct mais vous ne comprenez probablement pas correctement le modèle mixte.

(1) Comment penser correctement les modèles à effets mixtes? $\blacksquare$

Vous devez penser le modèle à effets mixtes d'une manière différente avant d'essayer de brancher mécaniquement l'inverse g (OU Moore-Penrose inverse, qui est un type spécial d'inverse g réflexif [Rao & Mitra]) dans la formule donnée par RMLE (Restreint Estimateur du maximum de vraisemblance, même ci-dessous.).

X = (\begin{array}{cc} f i x e d e f f e c t \\ r a n d o m e f f e c t \end{array})

$\boldsymbol{X}=\left(\begin{array}{cc} fixed\quad effect\\ & random\quad effect \end{array}\right)$

Une façon courante de penser l'effet mixte est que la partie de l'effet aléatoire dans la matrice de conception est introduite par une erreur de mesure, qui porte un autre nom de "prédicteur stochastique" si nous nous soucions davantage de la prédiction plutôt que de l'estimation. Il s'agit également d'une motivation historique de l'étude de la matrice stochastique dans l'établissement des statistiques.

Mon problème est que pour certains parfaitement raisonnables et scientifiquement intéressants, αα la matrice X (α) X (α) n'est pas de rang de colonne complet.

Compte tenu de cette façon de penser la vraisemblance, la probabilité que ne soit pas de rang complet est nulle. En effet, la fonction déterminante est continue dans les entrées de la matrice et la distribution normale est une distribution continue qui attribue une probabilité nulle à un seul point. La probabilité de défaut de rang est positive si vous ne la paramétrez de manière pathologique comme $X(\alpha)$ $X(\alpha)$ . $\left(\begin{array}{ccc} \alpha & \alpha\\ \alpha & \alpha\\ & & random\quad effect \end{array}\right)$

Donc, la solution à votre question est également assez simple, vous perturbez simplement votre matrice de conception (perturbe la partie à effet fixe uniquement), et utilisez la matrice perturbée (qui est de rang complet) pour effectuer toutes les dérivations. À moins que votre modèle n'ait des hiérarchies compliquées ou que lui-même soit presque singulier, je ne vois pas de problème sérieux lorsque vous prenez dans le résultat final car la fonction déterminante est continue et nous pouvons prendre la limite à l'intérieur de la fonction déterminante. $X_\epsilon(\alpha)=X(\alpha)+\epsilon\left(\begin{array}{cc} I & 0\\ 0 & 0 \end{array}\right)$ $X$ $\epsilon\rightarrow 0$ . Et sous forme de perturbation, l'inverse de peut être obtenu par le théorème de Sherman-Morrision-Woodbury. Et le déterminant de la matrice est donné dans un livre d'algèbre linéaire standard comme [Horn & Johnson]. Bien sûr, nous pouvons écrire le déterminant en termes de chaque entrée de la matrice, mais la perturbation est toujours préférée [Horn & Johnson]. $lim_{\epsilon\rightarrow 0}|X_\epsilon|=|lim_{\epsilon\rightarrow 0}X_\epsilon|$ $X_\epsilon$ $I+X$

(2) Comment traiter les paramètres de nuisance dans un modèle? $\blacksquare$

Comme vous le voyez, pour traiter la partie à effet aléatoire du modèle, nous devons la considérer comme une sorte de "paramètre de nuisance". Le problème est le suivant: RMLE est-il le moyen le plus approprié d'éliminer un paramètre de nuisance? Même dans les modèles GLM et à effets mixtes, RMLE est loin d'être le seul choix. [Basu] a souligné que de nombreuses autres façons d'éliminer les paramètres dans le cadre de l'estimation. Aujourd'hui, les gens ont tendance à choisir entre RMLE et la modélisation bayésienne car ils correspondent à deux solutions informatiques populaires: EM et MCMC respectivement.

À mon avis, il est certainement plus approprié d'introduire un a priori dans la situation de rang défectueux dans la partie à effet fixe. Ou vous pouvez re-paramétrer votre modèle afin d'en faire un rang complet.

$\hat{\beta}=(X\Sigma^{-1} X')^{-1}\Sigma^{-1}y$ $\Sigma$ $X(\alpha)$

$\blacksquare$

Le problème n'est pas de savoir comment modifier le RMLE pour le faire fonctionner dans le cas où une partie à effet fixe de la matrice n'est pas de plein rang; le problème est que dans ce cas, votre modèle lui-même peut être problématique si le cas non complet a une probabilité positive.

Un cas pertinent que j'ai rencontré est que dans le cas spatial, les gens peuvent vouloir réduire le rang de la partie à effet fixe en raison de considérations de calcul [Wikle].

Je n'ai pas vu de cas "scientifiquement intéressant" dans une telle situation, pouvez-vous signaler certains documents où le cas non complet est un problème majeur? Je voudrais savoir et discuter davantage, merci.

$\blacksquare$

[Rao et Mitra] Rao, Calyampudi Radhakrishna et Sujit Kumar Mitra. Inverse généralisé des matrices et de ses applications. Vol. 7. New York: Wiley, 1971.

[Basu] Basu, Debabrata. "Sur l'élimination des paramètres de nuisance." Journal de l'American Statistical Association 72.358 (1977): 355-366.

[Horn & Johnson] Horn, Roger A. et Charles R. Johnson. Analyse matricielle. Cambridge University Press, 2012.

[Wikle] Wikle, Christopher K. "Représentations de bas rang pour les processus spatiaux." Handbook of Spatial Statistics (2010): 107-118.

— Henry.L
source

X

$X$

α

$\alpha$

@ Student001 Oui, n'hésitez pas à apporter des précisions, car je le ressens également plus comme un GLM plutôt que comme un modèle mixte. Je vais essayer de répondre à nouveau si je peux :)

— Henry.L

@ Student001 Si vous le pouvez, écrivez tout le modèle et j'aimerais étudier un tel cas, peut-être AR (1) dans un cadre spatial, je suppose.

— Henry.L

X (α)

$X(\alpha)$

@ MarkL.Stone J'ai déjà fourni la perturbation comme solution si vous lisez attentivement les lignes, ce qui est une solution standard à la singularité numérique. Et l'OP a dit qu'il mettra à jour la description, donc je suppose que nous parviendrons à un consensus sur le problème correctement formulé.

— Henry.L