Modèles mixtes linéaires généralisés: sélection de modèle


10

Cette question / sujet a été soulevé lors d'une discussion avec un collègue et je cherchais des opinions à ce sujet:

Je modélise certaines données en utilisant une régression logistique à effets aléatoires, plus précisément une régression logistique à interception aléatoire. Pour les effets fixes, j'ai 9 variables qui sont intéressantes et qui entrent en ligne de compte. Je voudrais faire une sorte de sélection de modèle pour trouver les variables qui sont significatives et donner le «meilleur» modèle (effets principaux uniquement).

Ma première idée était d'utiliser l'AIC pour comparer différents modèles mais avec 9 variables je n'étais pas trop excitant pour comparer 2 ^ 9 = 512 modèles différents (mot-clé: dragage de données).

J'en ai discuté avec un collègue et il m'a dit qu'il se souvenait d'avoir lu sur l'utilisation de la sélection de modèle pas à pas (ou en avant) avec les GLMM. Mais au lieu d'utiliser une valeur de p (par exemple basée sur un test de rapport de vraisemblance pour les GLMM), on devrait utiliser l'AIC comme critère d'entrée / sortie.

J'ai trouvé cette idée très intéressante, mais je n'ai trouvé aucune référence qui en ait discuté davantage et mon collègue ne se souvenait pas où il l'avait lue. De nombreux livres suggèrent d'utiliser l'AIC pour comparer les modèles, mais je n'ai trouvé aucune discussion sur l'utilisation de cela avec une procédure de sélection de modèle pas à pas ou vers l'avant.

J'ai donc essentiellement deux questions:

  1. Y a-t-il quelque chose de mal à utiliser l'AIC dans une procédure de sélection de modèle pas à pas comme critère d'entrée / sortie? Si oui, quelle serait l'alternative?

  2. Avez-vous des références qui discutent de la procédure ci-dessus (également comme référence pour un rapport final?

Meilleur,

Emilia


3
La sélection de modèle pas à pas est autant de dragage de données que la sélection de sous-ensemble complet (elle essaie en fait de trouver approximativement la même solution en beaucoup moins de temps). La sélection basée sur AIC est également un dragage de données.
Michael M

Réponses:


8

La sélection pas à pas est erronée dans les modèles multiniveaux pour les mêmes raisons qu'elle est erronée dans la régression "régulière": les valeurs de p seront trop faibles, les erreurs standard trop petites, les estimations des paramètres biaisées loin de 0, etc. Plus important encore, cela vous nie l'occasion de réfléchir.

9 Les IV ne sont pas si nombreuses. Pourquoi avez-vous choisi ces 9? Vous aviez sûrement une raison.

Une première chose à faire est de regarder beaucoup de parcelles; lesquelles précises dépendent un peu du fait que vos données soient longitudinales (auquel cas les graphiques avec le temps sur l'axe des x sont souvent utiles) ou groupés. Mais regardez sûrement les relations entre les 9 IV et votre DV (les tracés parallèles sont une possibilité simple).

L'idéal serait de construire quelques modèles basés sur le sens substantiel et de les comparer en utilisant AIC, BIC ou une autre mesure. Mais ne soyez pas surpris si aucun modèle particulier ne ressort aussi clairement. Vous ne dites pas dans quel domaine vous travaillez, mais dans de nombreux domaines (la plupart?), La nature est compliquée. Plusieurs modèles peuvent s'adapter à peu près aussi bien et un modèle différent peut mieux s'adapter à un ensemble de données différent (même si les deux sont des échantillons aléatoires de la même population).

Quant aux références - il y a beaucoup de bons livres sur les modèles mixtes non linéaires. Le choix qui vous convient le mieux dépend a) du domaine dans lequel vous vous trouvez b) de la nature des données c) du logiciel que vous utilisez.

Répondre à votre commentaire

  1. Si les 9 variables sont scientifiquement importantes, j'envisagerais au moins de les inclure toutes. Si une variable que tout le monde considère comme importante finit par avoir un petit effet, c'est intéressant.

  2. Tracez certainement toutes vos variables au fil du temps et de différentes manières.

  3. Pour les problèmes généraux concernant les modèles longitudinaux à plusieurs niveaux, j'aime Hedeker et Gibbons ; pour les modèles longitudinaux non linéaires en SAS, j'aime Molenberghs et Verbeke . La documentation SAS elle-même (pour PROC GLIMMIX) fournit également des conseils.


Dans cette étude, les sujets sont exposés à différentes combinaisons de médicaments et d'exercices au fil du temps et le résultat d'intérêt est la présence d'une certaine condition respiratoire (oui / non). Les patients sont mesurés de manière répétée toutes les 2 semaines sur 6 mois. En termes de logiciels, j'utilise SAS et R. Les 9 IV ont été choisis par l'investigateur en raison de leur importance scientifique.
Emilia

L'inspection des données est tout aussi mauvaise, sinon pire, que l'utilisation de la sélection de modèles algorithmiques. La raison en est que la sélection de modèles algorithmiques est bien comprise et peut être potentiellement ajustée; regarder les données et utiliser un jugement subjectif est un processus qui ne peut pas être reproduit ou ajusté. Dans tous les cas, j'éviterais de faire une sélection de modèle car la sélection de modèle invalide l'inférence. Puisqu'il n'y a que 9 covariables ici, je pense que le meilleur conseil est de travailler avec le modèle complet ou avec un modèle sélectionné uniquement en fonction de la substance.
user3903581

3

La sélection du modèle peut être mieux effectuée en utilisant des méthodes de retrait telles que LASSO. Les méthodes pas à pas sont trop libérales. Une justification peut être trouvée dans la page Web de Tibshirani. Si vous utilisez R, il existe un package appelé glmmLassoqui permet la sélection du modèle dans les modèles d'effets mixtes linéaires généralisés en utilisant la méthode de rétrécissement LASSO.


1

Une bonne référence pour la sélection de modèles mixtes basée sur AIC dans R (également valable pour les nuls) serait Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.